maskinöversättning

översättning med användning av datorprogram. Oftast gäller det text, men det finns också maskinöversättning för talat språk. – Program för maskinöversättning har utvecklats sedan 1950‑talet, men maskinöversättning har visat sig mycket svårare än man väntade sig då. Bäst resultat har man nått inom områden med en begränsad och strikt definierad vokabular, som juridik. – Två huvudinriktningar finns inom maskin­över­sättning:

  • – Grammatisk: Översättnings­programmet har tillgång till en tvåspråkig ord­lista och grammatiska regler för båda språken. Det översätter texten genom att slå upp varje ord i ord­listan och tillämpa de grammatiska reglerna. Alltså ungefär samma tillvägagångs­sätt som en mänsklig översättare utan egen kunskap om målspråket skulle använda. – I praktiken har den grammatiska metoden inte fungerat så bra. Det finns ett klassiskt uttalande av forskaren Fred JelinekIBM: ”Varje gång jag sparkar en språkvetare fungerar taligenkännings-pro­grammet bättre.” (Han hade nog sagt samma sak om maskinöversättning);
  • Statistisk: Programmet jämför stora text­massor på båda språken. Det utgår från texter som man vet innehåller samma information på båda språken, till exempel redan kända översättningar. Texterna delas sedan upp i allt mindre delar, och programmet gör en bedömning av hur sannolikt det är att två ord, uttryck eller meningar betyder samma sak. Detta fungerar naturligtvis bättre ju mer text man har tillgång till, och det förutsätter att man använder datorer. Det mest kända exemplet på statistisk maskinöversättning är Google Översätt, men se också Skype Translator.

– På engelska: machine translation.

– Det finns också halvautomatiska verktyg som hjälper mänskliga översättare. Ett sådant är fras­minne, ett program som, enkelt uttryckt, talar om för över­sättaren att ”förra gången du översatte det här uttrycket så översatte du det så här”. Frasminnen är mest användbara för facktexter.

[maskinöversättning] [ändrad 16 augusti 2022]

Skype Translator

ett maskinöversättningsprogram från Micro­soft. – Det översätter tal till tal i realtid och är avsett för Skype. Det visas också en text­remsa sam­tidigt som över­sättningen läses upp med tal­syntes. – Skype Trans­lator kom i förhandsversion 2015. För­hands­versionen klarade engelska och spanska. Numera uppges Skype Translator kunna översätta till elva språk från 60 språk. – Se Skypes webbsidor (länk). – Läs också om Google Översätt och om Babel fish.

[maskinöversättning] [ändrad 30 november 2020]

teckenigenkänning

om datorprogram: igenkänning av skrivna eller tryckta bokstäver och andra skrivtecken och kodning av dem som digital text. – Man talar också om maskinläsning (OCR), men med termen teckenigenkänning vill man betona att datorprogrammet inte läser i betydelsen att det på något sätt förstår vad det står. Ordet teckenigenkänning används i synnerhet om program som kan känna igen tecken som skrivs för hand, ofta med en speciell penna, direkt på en bildskärm. (Termen maskinläsning används däremot främst om igenkänning av text på papper.) – Teckenigenkänning används på en del smarta mobiler och förr på handhållna datorer. Det första spridda programmet för denna typ av teckenigen­känning var Graffiti, som användes i hand­datorn Palm†. – På engelska: character recognition.

[användargränssnitt] [språkteknik] [ändrad 19 maj 2018]

parsning

försvenskning av engelska parsing; to parse – att parsa – uppdelning av något i mindre delar varefter delarna sedan gås igenom systematiskt, en i taget. I språkvetenskap (dataling­vistik) innebär pars­ning att man delar upp texter, meningar och ord i mindre delar för att man ska kunna tolka deras inne­börd och klar­lägga de språk­liga regler som tillämpas, ofta med hjälp av datorbaserade hjälp­medel. – Termen används i besläktad be­ty­delse inom program­me­ring – se parser.

[programmering] [språkteknik] [ändrad 30 november 2019]

ordstamsigenkänning

(stemming) – automatisk igenkänning av den viktigaste delen av ett ord, stammen, med användning av datorprogram. Till exempel att skatorna kommer av skata. – Syftet är att man ska hitta och vid behov sammanföra böjningsformer av samma ord. – Exempel: om man utgår från ordet katten hittar man med ordstamsigenkänning ordstammen katt, och då kan man också hitta böjningsformer som katter och katterna. Det är (oftast) relativt enkelt på engelska, men krångligare på svenska, där vi har gott om böjningar som cykel—cyklar och fot—fötter. Men även engelska har svårigheter om man breddar betydelsen av ordstamsigenkänning till att också gälla böjningsformer som be, am, are, is, was, were. – Ordstamsigenkänning är en form av språk­teknik och används i datalingvistik. – Ordstamsigenkänning är praktiskt användbar i sökmotorer, för maskinöversättning och i program som söker information i textmassor. – Program för ordstamsigenkänning kallas på engelska för stemmers. Det finns två huvudtyper: lexikala, som bygger på ordlistor med böjningsformer, och algoritmiska, som bygger på regler. Praktiskt användbara program använder båda metoderna.

[språkteknik] [sökningar] [ändrad 15 februari 2018]

audio indexing

ljudfilsindexering – identifiering av orden i en ljudfil (med användning av taligenkänning) och upprättande av ett skriftligt index över orden så att man kan söka i ljudfilen som i en textfil. – Se också audio mining.

[språkteknik] [ändrad 23 november 2022]

läsa

  1. – om datorer: hämta in­for­ma­tion eller in­struk­tioner från en teknisk anordning eller från ett lagringsmedium. Varje slags teknisk omvandling av förhållanden i yttervärlden till impulser som en dator (eller annan digital anordning) kan bearbeta kan i princip kallas för att datorn läser: DVD‑spelaren läser (eller spelar upp) en DVD. Inläsning är när datorn måste läsa och spara (i arbetsminnet) en större datamängd för att sedan kunna bearbeta den;
  2. (read) – rättighet för en viss användare eller grupp av användare att läsa i ett it‑system. Rättigheten att läsa är en inställning som är knuten till resursen, inte till användare. Det innebär att en användare eller grupp får öppna filerna och visa inne­hållet (text, bild, ljud), men inte får ändra, radera eller kopiera filen (såvida inte ytter­ligare rättigheter ger tillstånd till det). De andra två grundläggande rättigheterna är rätt att skriva och att exe­kvera (köra). – Se också rwx;
  3. – se maskinläsning för när en dator läser text skriven med vanliga bokstäver på papper.

– På engelska: read (i alla betydelserna).

[datalagring] [it-system] [it-säkerhet] [språkteknik] [ändrad 10 september 2019]

core

  1. – om processorer: se kärna;
  2. – core memory, core storagekärnminne – äldre typ av arbets­minne som bestod av magnetiser­bara järnringar, cores, i ett rutnät. Under 1960‑talet ersattes kärn­minnen successivt av halv­ledar­minnen, men på engelska användes core trots det länge som be­teckning på arbets­minnet;
  3. – se Dublin Core;
  4. – se CoreOS;
  5. – core som i hardcore (om någon eller något som har en hård kärna, alltså som är hård, grov, rå, fanatisk). Ordet har flyttats över till andra ord, ibland utan hänsyn till grund­bety­delsen kärna. – Se till exempel bore­core. – Läs också denna artikel i Washingtonian: länk.
  6. – För engelska kernel, se också kärna.

[lagringsmedier] [linux] [processorer] [språkteknik] [språktips] [trender] [ändrad 5 november 2017]