Språkteknik (kategori) | IDG:s ordlista

maskinöversättning

översättning med användning av datorprogram. Oftast gäller det text, men det finns också maskinöversättning för talat språk. – Program för maskinöversättning har utvecklats sedan 1950‑talet, men maskinöversättning har visat sig mycket svårare än man väntade sig då. Bäst resultat har man nått inom områden med en begränsad och strikt definierad vokabular, som juridik. – Två huvudinriktningar finns inom maskinöversättning:

– Grammatisk: Översättningsprogrammet har tillgång till en tvåspråkig ordlista och grammatiska regler för båda språken. Det översätter texten genom att slå upp varje ord i ordlistan och tillämpa de grammatiska reglerna. Alltså ungefär samma tillvägagångssätt som en mänsklig översättare utan egen kunskap om målspråket skulle använda. – I praktiken har den grammatiska metoden inte fungerat så bra. Det finns ett klassiskt uttalande av forskaren Fred Jelinek på IBM: ”Varje gång jag sparkar en språkvetare fungerar taligenkännings-programmet bättre.” (Han hade nog sagt samma sak om maskinöversättning);
– Statistisk: Programmet jämför stora textmassor på båda språken. Det utgår från texter som man vet innehåller samma information på båda språken, till exempel redan kända översättningar. Texterna delas sedan upp i allt mindre delar, och programmet gör en bedömning av hur sannolikt det är att två ord, uttryck eller meningar betyder samma sak. Detta fungerar naturligtvis bättre ju mer text man har tillgång till, och det förutsätter att man använder datorer. Det mest kända exemplet på statistisk maskinöversättning är Google Översätt, men se också Skype Translator.

– På engelska: machine translation.

– Det finns också halvautomatiska verktyg som hjälper mänskliga översättare. Ett sådant är frasminne, ett program som, enkelt uttryckt, talar om för översättaren att ”förra gången du översatte det här uttrycket så översatte du det så här”. Frasminnen är mest användbara för facktexter.

[maskinöversättning] [ändrad 16 augusti 2022]

Skype Translator

ett maskinöversättningsprogram från Microsoft. – Det översätter tal till tal i realtid och är avsett för Skype. Det visas också en textremsa samtidigt som översättningen läses upp med talsyntes. – Skype Translator kom i förhandsversion 2015. Förhandsversionen klarade engelska och spanska. Numera uppges Skype Translator kunna översätta till elva språk från 60 språk. – Se Skypes webbsidor (länk). – Läs också om Google Översätt och om Babel fish.

[maskinöversättning] [ändrad 30 november 2020]

NLP ⇢

– förkortning för natural language programming;
– förkortning för natural language processing – se språkteknik.

[förkortningar på N] [programmering] [språkteknik]

teckenigenkänning

om datorprogram: igenkänning av skrivna eller tryckta bokstäver och andra skrivtecken och kodning av dem som digital text. – Man talar också om maskinläsning (OCR), men med termen teckenigenkänning vill man betona att datorprogrammet inte läser i betydelsen att det på något sätt förstår vad det står. Ordet teckenigenkänning används i synnerhet om program som kan känna igen tecken som skrivs för hand, ofta med en speciell penna, direkt på en bildskärm. (Termen maskinläsning används däremot främst om igenkänning av text på papper.) – Teckenigenkänning används på en del smarta mobiler och förr på handhållna datorer. Det första spridda programmet för denna typ av teckenigenkänning var Graffiti, som användes i handdatorn Palm†. – På engelska: character recognition.

[användargränssnitt] [språkteknik] [ändrad 19 maj 2018]

parsning

försvenskning av engelska parsing; to parse – att parsa – uppdelning av något i mindre delar varefter delarna sedan gås igenom systematiskt, en i taget. I språkvetenskap (datalingvistik) innebär parsning att man delar upp texter, meningar och ord i mindre delar för att man ska kunna tolka deras innebörd och klarlägga de språkliga regler som tillämpas, ofta med hjälp av datorbaserade hjälpmedel. – Termen används i besläktad betydelse inom programmering – se parser.

[programmering] [språkteknik] [ändrad 30 november 2019]

No captcha recaptcha

(ett robotfilter) – se Recaptcha.

[inloggning] [språkteknik]

ordstamsigenkänning

(stemming) – automatisk igenkänning av den viktigaste delen av ett ord, stammen, med användning av datorprogram. Till exempel att skatorna kommer av skata. – Syftet är att man ska hitta och vid behov sammanföra böjningsformer av samma ord. – Exempel: om man utgår från ordet katten hittar man med ordstamsigenkänning ordstammen katt, och då kan man också hitta böjningsformer som katter och katterna. Det är (oftast) relativt enkelt på engelska, men krångligare på svenska, där vi har gott om böjningar som cykel—cyklar och fot—fötter. Men även engelska har svårigheter om man breddar betydelsen av ordstamsigenkänning till att också gälla böjningsformer som be, am, are, is, was, were. – Ordstamsigenkänning är en form av språkteknik och används i datalingvistik. – Ordstamsigenkänning är praktiskt användbar i sökmotorer, för maskinöversättning och i program som söker information i textmassor. – Program för ordstamsigenkänning kallas på engelska för stemmers. Det finns två huvudtyper: lexikala, som bygger på ordlistor med böjningsformer, och algoritmiska, som bygger på regler. Praktiskt användbara program använder båda metoderna.

[språkteknik] [sökningar] [ändrad 15 februari 2018]

audio indexing

ljudfilsindexering – identifiering av orden i en ljudfil (med användning av taligenkänning) och upprättande av ett skriftligt index över orden så att man kan söka i ljudfilen som i en textfil. – Se också audio mining.

[språkteknik] [ändrad 23 november 2022]

läsa

– om datorer: hämta information eller instruktioner från en teknisk anordning eller från ett lagringsmedium. Varje slags teknisk omvandling av förhållanden i yttervärlden till impulser som en dator (eller annan digital anordning) kan bearbeta kan i princip kallas för att datorn läser: DVD‑spelaren läser (eller spelar upp) en DVD. Inläsning är när datorn måste läsa och spara (i arbetsminnet) en större datamängd för att sedan kunna bearbeta den;
– (read) – rättighet för en viss användare eller grupp av användare att läsa i ett it‑system. Rättigheten att läsa är en inställning som är knuten till resursen, inte till användare. Det innebär att en användare eller grupp får öppna filerna och visa innehållet (text, bild, ljud), men inte får ändra, radera eller kopiera filen (såvida inte ytterligare rättigheter ger tillstånd till det). De andra två grundläggande rättigheterna är rätt att skriva och att exekvera (köra). – Se också rwx;
– se maskinläsning för när en dator läser text skriven med vanliga bokstäver på papper.

– På engelska: read (i alla betydelserna).

[datalagring] [it-system] [it-säkerhet] [språkteknik] [ändrad 10 september 2019]

core

– om processorer: se kärna;
– core memory, core storage – kärnminne – äldre typ av arbetsminne som bestod av magnetiserbara järnringar, cores, i ett rutnät. Under 1960‑talet ersattes kärnminnen successivt av halvledarminnen, men på engelska användes core trots det länge som beteckning på arbetsminnet;
– se Dublin Core;
– se CoreOS;
– core som i hardcore (om någon eller något som har en hård kärna, alltså som är hård, grov, rå, fanatisk). Ordet har flyttats över till andra ord, ibland utan hänsyn till grundbetydelsen kärna. – Se till exempel borecore. – Läs också denna artikel i Washingtonian: länk.
– För engelska kernel, se också kärna.

[lagringsmedier] [linux] [processorer] [språkteknik] [språktips] [trender] [ändrad 5 november 2017]