textmatchning

sökning efter likheter mellan olika textdokument. – Syftet är ofta att upptäcka plagiat eller fusk. Textmatchning görs med datorprogram, ofta genom webbaserade tjänster. En given text – ofta en vetenskaplig artikel eller en uppsats – jämförs med ett stort antal texter från webben.  Programmen letar inte enbart efter exakt likalydande text, utan kan utgå från ett ”fingeravtryck” av texten, baserat på vilka ord som är vanliga och andra mönster. – Textmatchning är inget säkert sätt att upptäcka plagiat och fusk. I synnerhet i tekniska och naturvetenskapliga artiklar finns det nämligen många stående uttryck och formuleringar som många skribenter använder utan att det därför är plagiat. Misstänkta fall av plagiat och fusk måste därför alltid granskas av en kompetent mänsklig bedömare. – Tjänster för textmatching är bland andra Ithenticate (ithenticate.com) och Ouriginal (ouriginal.com) (tidigare Urkund). – På engelska: text matching. Man talar också om plagiarism detection. – Se artikel från 2022 i tidskriften Curie.

[källkritik] [språkteknik] [upphovsrätt] [4 april 2022]

GPT-3

ett system som kan producera text som verkar vara skriven av människor. – GPT‑3 bygger på ett enormt system för maskininlärning, baserat på mängder av autentisk text. Om en användare matar in början på en text ger GPT‑3 förslag om hur texten ska fortsätta. Man kan också ge GPT‑3 förebilder för den text man önskar få skriven. Systemet fungerar utan mänsklig handledning. – Ett problem, som påpekades av forskare kort efter att GPT‑3 presenterades (se denna länk), är att systemet kan producera alla slags text. Det kan alltså framställa falska nyheter, spam och näthat – allt baserat på inslag i de väldiga textmassor, insamlade från internet, som används för maskininlärningen. – GPT‑3 presenterades 2020, och är utvecklat av företaget OpenAI (openai.com). Samma år köpte Microsoft exklusiv licens till GPT‑3. Andra kan använda GPT‑3 genom ett API, men bara Microsoft har tillgång till det underliggande systemet. GPT står för generative pre‑trained transformer. Det finns två tidigare liknande system. Ibland talar man om GPT-n. – Se openai.com/blog/openai-api.

[förkortningar på G] [maskininlärning] [språkteknik] [23 mars 2022]

Fabricius

en tjänst som tolkar hieroglyfer. – Den webbaserade tjänsten tar artificiell intelligens till hjälp för att tyda hieroglyfer. Man kan också använda den för att lära sig mer om hieroglyfer, och det går också att skicka enklare meddelanden, skrivna med hieroglyfer. – Fabricius lanserades 2020 och är ett samarbete mellan Google och det australiska centret för egyptologi vid Macquarie University (mq.edu.au…), Ubisoft (ubisoft.com) and Psycle Interactive (psycle.com). – Se artsexperiments.withgoogle.com/fabricius.

[språk] [8 februari 2021]

Dada Engine

ett program som producerar text som är grammatiskt korrekt men meningslös. Det utvecklades 1996 av Andrew C Bulhak (blogg), då på Monash University (monash.edu) i Melbourne. Användaren kan ge Dada Engine olika språk och olika vokabulärer att arbeta med. En omtalad tillämpning av Dada Engine är The Postmodern Generator (elsewhere.org/pomo) som genererar postmodernistiska artiklar som är praktiskt taget omöjliga att skilja från sådana som är skrivna av människor. – Se dev.null.org/dadaengine. – Läs också om SciGen.

[artificiell skenbar intelligens] [språkteknik] [23 maj 2020]

disambiguation

fastställande av vilken betydelse ett ord har i ett givet sammanhang när ordet har två eller flera betydelser. (Ordet är en homonym.) Exempel: bok, fil, gift. Det kan vara svårt för människor, men det är framför allt en utmaning i språkteknik, till exempel i maskinöversättning. Svårigheten kan uppstå både när det gäller text (homografer) och i taligenkänning (homofoner). – På svenska kallas det för disambiguering, särskiljning eller betydelsestrukturering.

[språkteknik] [ändrad 17 september 2020]

Sign-IO

ett par handskar som används för översättning av dövas teckenspråk till syntetiskt tal. – Handskarna har sensorer som registrerar hur varje fingerled rör sig och hur mycket de böjs. Informationen överförs med Bluetooth till en smart mobil med Android, och en app i telefonen översätter teckenspråket till tal. – Sign‑IO har utvecklats av kenyanen Roy Allela (royallela.com), men är ännu inte (april 2022) i produktion. Roy Allela belönades 2017 med American society of mechanical engineers (asme.org) pris Trailblazer Award – se denna länk. – Se sign-io.com.

[kroppsburet] [språkteknik] [tillgängligt] [ändrad 24 april 2022]