SARC

en databas för forskning om hur system för artificiell intelligens ska kunna känna igen sarkasm i yttranden. Databasen, som presenterades 2017, innehåller 1,4 miljoner sarkastiska yttranden från det sociala forumet Reddit. – Med sarkasm menas yttranden som i hånfullt eller nedsättande syfte säger motsatsen till vad upphovspersonen faktiskt menar. ”Vilken smart idé!” betyder, om det sägs sarkastiskt: ”Vilken dum idé!”. Sarkasm har beskrivits som ”ironi utan humor”. Program som analyserar eller översätter yttranden i naturligt språk har uppenbara svårigheter med att känna igen sarkasm. För människor är sarkasm oftast uppenbar, eftersom den framgår av det som står före eller efter, eller båda. I tal framgår det dessutom ofta av tonfall och ansiktsuttryck. Men korta sarkastiska yttranden i sociala medier blir inte alltid rätt förstådda. – Vissa ord används nästan aldrig annat än sarkastiskt, som ”ljushuvud”. – Namnet SARC uppges vara kort för Self-annotated Reddit corpus, uppenbarligen en så kallad apronym. – Se denna länk.

[ai] [databaser] [förkortningar på S] [språkteknik] [ändrad 17 september 2018]

Botnik

en amerikansk grupp skribenter, konstnärer och programmerare som i samarbete med datorer skapar ”konstiga nya saker”. Gruppen blev känd i slutet av 2017 då den publicerade ett nytt kapitel om ”Harry Potter” (länk). Det hade skrivits med användning av programmet Predictive writer (länk). Programmet bygger på statistik över ord och ordföljder i Harry Potter-böckerna och i ett antal andra litterära verk. – Se botnik.org.

[kultur och underhållning på webben] [kuriosa] [språkteknik] [1 januari 2018]

textrobot

program som kan skriva tidningsartiklar. Textrobotar används främst för notiser om sport och väder, där det viktiga är att få med ett antal sak­upp­gifter. Man matar in de sakuppgifter som behövs (som matchresultat, ställ­ning i halvtid, målgörare…) och sedan bakar textroboten in uppgifterna i en be­rät­tande text. Variationer i formuleringarna är förprogrammerade. Text­ro­botar används på flera svenska tidningar (november 2017). Kom­men­tarer och analys skrivs fortfarande av människor. – På engelska: artificial writer, robot journalist.

[robotar] [språkteknik] [14 november 2017]

Anonymouth

ett program som gör det svårare att identifiera författaren av en text. –Anonymouth analyserar först texter skrivna av en skribent för att hitta ord och formuleringar som är typiska för den skribenten. (Det kallas för stilometri.) Sedan ersätter Anonymouth sådana ord och formuleringar med andra, som har samma innebörd, men som inte är kännetecknande för skribenten. Exempel på sådana förändringar, gjorda med Anonymouth, finns i denna artikel i tidskriften New Republic. Programmet har utvecklats av Rachel Greenstadt (länk) med flera på Drexel University i Philadelphia. Koden till Anonymouth finns på GitHub.

[dold identitet] [språkteknik] [ändrad 5 februari 2019]

Scunthorpeproblemet

the Scunthorpe problem – beteckning på idiotisk filtrering av fula ord. In­vån­are i den engelska staden Scunthorpe fick 1996 inte registrera konton på America Online eftersom stadens namn innehåller ordet cunt (’fitta’). (Stadens namn stavades 1086 Escumesthorp, vilket väl också hade fastnat i filtret.) Andra operatörer lär senare ha upprepat dumheten. Wikipedia har en lång lista med liknande exempel på artificiell stupiditet. – Se också apyware, clbuttic och the Cupertino effect.

[fel] [kuriosa] [språkteknik]

textförslag

(autocomplete) – förslag till hur ett ord eller en mening ska fortsätta. Det används i synnerhet i program för sms, chatt och inläsning av text. Textförslag baseras dels på ordlistor, dels på statistik över vad folk brukar skriva.