talsyntes

framställande av konstgjort mänskligt tal med dator­teknik. – Program för talsyntes kan ta emot skriven text som indata och läsa upp texten i högtalare eller hörlurar så att den blir begriplig. Tal­syntes innebär att mänskligt tal, ljud för ljud, efterliknas med digital teknik. – På engelska: speech synthesis, text‑to‑speech synthesis (TTS). – Talsyntes är inte samma teknik som i talsvar, där ord och fraser som har lästs in av människor kombineras till meddelanden på olika sätt.

[användargränssnitt] [språkteknik] [ändrad 11 januari 2023]

NLPRank

en metod för att upptäcka förfalskade webbsidor med ledning av deras webbadresser (URL:er). – Förfalskade webbsidor används i nätfiske, och kan vara till utseendet identiska med den webbsida de är förfalskningar av. Men en viktig skillnad är just webbadressen. Den kan ju inte vara identisk med den äkta sidans webbadress. – NLPRank, som har utvecklats av företaget OpenDNS (länk), numera del av Cisco, granskar därför webbadresser för att upptäcka webb­sidor som troligen är för­falskade. OpenDNS har analyserat ett stort antal förfalskade webb­sidor och upptäckt att vissa ord och uttryck i deras webbadress med hög sanno­lik­het visar att sidorna är falska. Den statistiska analysen är grunden för NLPRank. (NLP står för natural language processing, se språkteknik.) – Se Ciscos webbsidor.

[skydd] [språkteknik] [webbsidor] [ändrad 8 februari 2023]

maskinläsning

Typsnittet Data 70.
  1. – (optical character recognition, förkortat OCR, på svenska också optisk teckenigenkänning eller optisk läsning) – teknik för omvandling av tryckt eller handskriven text till text som kan behandlas av en dator. – Maskin­läsning kom i bruk på 1960‑talet för datoriserad hantering av checkar, inbetal­nings­kort och liknande. Det fungerade då bara med speciella typsnitt som minskade risken för felläsning. Sådana typsnitt, som det elefantsjuka Data 70 (se länk) och det snarlika typsnittet Computer (länk), blev snabbt ett slags känne­tecken för datorteknik, och användes i många år i rubriker och på bok­omslag som inte alls var avsedda för maskin­läsning, men som handlade om datorer. Med åren blev typsnitt som utvecklades för maskinläsning mer och mer lika vanliga typsnitt, till exempel OCR‑B (länk). (Å andra sidan har den koreanska formgivaren Sang Mon utvecklat typsnitt som ska vara oläsliga för maskinläsning, se denna länk.) Men på 1970‑talet uppfann Ray Kurzweil en maskinläsningsteknik som klarade alla vanliga typsnitt. Nu finns det program för maskinläsning som kan köras på vilken person­dator som helst, och även handskriven text kan läsas med varierande grad av framgång. – Jäm­för med teckenigenkänning;
  2. – om datorer: inläsning av information som tillhandahålls i en form som datorer, men inte nödvändigtvis människor, kan tolka. Välkänt exempel: streckkod. Maskinläsbar information är information som datorn kan exekvera som programkod eller behandla i ett program.

[informationsinsamling] [språkteknik] [typografi] [ändrad 30 januari 2020]

språkteknik

datorteknik för information som skrivs eller sägs på naturliga språk. – I språk­teknik ingår sådant som generativt språk, maskinöversättning, taligen­känning, syntetiskt tal, tal­syntes och utvinning av information ur stora textmassor. Grunden är att information på vanligt talat eller skrivet språk överförs till former som en dator kan bearbeta, eller omvänt att information som har framställts med hjälp av en dator överförs till en språklig form som människor förstår. Även datorbaserade hjälpmedel för analys av talat och skrivet språk ingår. – Språkteknik (eller språkteknologi) är en tillämpning av datalingvistik. – På engelska: natural language processing.

[forskning] [språkteknik] [ändrad 8 februari 2023]

taligenkänning

igenkänning av talade ord och meningar med användning av datorprogram. – Igenkänning innebär att ett datorprogram knyter talade ord till skrivna ord från en lagrad ordlista. Detta kan inte göras enbart genom att programmet går igenom orden ljud för ljud. Många ord låter likadant, de stavas inte som de uttalas och människor talar slarvigt. Rent fonetiskt är det inte heller alltid uppenbart var ett ord slutar och nästa börjar, inte ens alltid var de språkljud som bokstäverna står för börjar och slutar: de går in i varandra. Därför används också statistisk analys och grammatiska regler i taligenkänning. – Undvik att kalla taligenkänning för talförståelse, vilket skulle kunna tolkas som att datorn i någon bemärkelse förstår vad den talande menar. – På engelska: speech recognition, ibland automatic speech recognition eller automated speech recognition, förkortat ASR. – Skilj också mellan taligenkänning och röstigenkänning. – Taligenkänning är förutsättningen för audio mining. – Läs också om computer pidgin language.

[språkteknik] [ändrad 31 augusti 2021]

Word Lens

en app för maskinöversättning av text i kameramotiv. Numera del av Google Translate för smarta mobiler. – Man håller upp kameran i den smarta mobilen mot en skylt eller annan text, så att det syns på bildskärmen, och så översätter Word Lens texten. Det är alltså en kombination av maskinöversättning och tecken­igen­känning. – Word Lens översätter mellan engelska och fem sex andra språk i båda riktningarna. – Word Lens lanserades 2010. Det utvecklades av före­taget Quest Visual som 2014 köptes av Google. Den ingår i appen Google Översätt/Google Translate för Android, Google Glass och iOS. – Se Quest Visuals webb­sidor (länk).

[maskinöversättning] [ändrad 22 maj 2019]

datalingvistik

språkvetenskap (lingvistik) med användning av datorprogram för analys och generering av mänskligt språk. – (Se naturligt språk, betydelse 1). Datalingvistik bygger på att datorteknik ger forskare möjlig­het att gå igenom stora mängder text eller talat språk för att upp­täcka mönster, regler och tendenser i språket. Datorteknik används också för att framställa språkliga yttranden, till exempel i maskinöversättning eller i form av syntetiskt tal (talsyntes). Utveckling av teknik för data­lingvistik kallas för språkteknik. – Se till exempel ordstamsigenkänning. – På engelska: computational linguistics.

[språkteknik] [ändrad 22 september 2021]