Språkteknik (kategori) | IDG:s ordlista

My AI

– en dialogrobot från Snapchat, baserad på artificiell intelligens. Kallas på svenska för Mitt AI. – Varje användare av Snapchat kan skaffa en personlig instans av My AI och få hjälp av den. My AI kan svara på frågor och komma med förslag. – Liksom andra textgeneratorer är My AI en tillämpning av maskininlärning. Den har tränats på enorma mängder text från internet och lärt sig att generera text som kan verka vara skriven av en människa och som kan ge rimliga svar på frågor (se stokastisk papegoja). Tekniken kommer från ChatGPT. – My AI släpptes för Snapchats användare i mars 2023. – Liksom andra dialogrobotar har den utsatts för kritik, eftersom den tenderar att reproducera rasistiska, fördomsfulla och hatiska åsikter som den har hämtat in från nätet. My AI pusslar helt enkelt ihop ord och fraser som ofta förekommer i närheten av varandra i enlighet med grammatiska regler (se stor språkmodell). – Snapchat råder användarna att ta vad My AI skriver ”med en nypa salt” och att anmäla oacceptabla yttranden. – Se Snapchats webbsidor;
– My AI är också en svensk social plattform för personer som arbetar med artificiell intelligens. Den drivs av organisationen AI Sweden (ai.se). – Se my.ai.se.

[ai] [dialogrobotar] [generativt språk] [sociala medier] [19 maj 2023]

BoW ⇢

– bag of words – se påse med ord.

[förkortningar på B] [språkteknik]

bag of words ⇢

(BoW) – se påse med ord.

[språkteknik]

(bag of words – BoW) – ett sätt att sammanfatta en text i datoriserad språkbehandling. – I en påse med ord räknar man hur många gånger varje ord förekommer i texten, men man tar ingen hänsyn till ordföljd eller grammatiska regler. Detta kan ge tillräcklig information för maskininlärning eller för identifiering av spam eller annan klassificering av textdokument. – Mer i denna introduktion: machinelearningmastery.com….

[språkteknik] [14 maj 2023]

stokastisk papegoja

kritisk beteckning på textgeneratorer baserade på stora språkmodeller:

– Papegoja därför att textgeneratorer sammanfogar yttranden med sannolikhetsbaserade metoder utan att ”förstå” vad de skriver. De har inte heller någon insikt i vad den mänskliga läsaren har för förkunskaper eller underförstådda förväntningar. En chatt med en dialogrobot som ChatGPT är därför inte som ett samtal mellan människor;
– Stokastisk därför att det ingår ett element av slumpmässighet. Textgeneratorn utgår från en enorm mängd text, insamlad från internet, och väljer ut ord och fraser som verkar passa till den mänskliga användarens fråga med en kombination av sannolikhetsanalys och slumpmässigt urval.

– Uttrycket stokastisk papegoja användes i artikeln ”On the dangers of stochastic parrots: Can language models be too big?” från 2021 av bland andra Timrit Gebru och Shmargaret Schmitchell: dl.acm.org/doi…

[generativ ai] [generativt språk] [ändrad 26 april 2023]

korpus

stor textmängd insamlad för språkvetenskapliga tillämpningar. – På engelska: corpus.

[språkteknik] [24 mars 2023]

Kosmos-1

ett språksystem som kan känna igen, beskriva och bearbeta innehållet i bilder. – Kosmos‑1 kan enligt uppgift ge förklaringar till sådant som visas på bilder (”varför gråter pojken?”), lösa matematiska uppgifter som visas på foton, klara bildbaserade IQ‑test, beskriva frisyrer och läsa av klockor och mätinstrument från bilder. Kosmos‑1 har utvecklats av Microsoft och visades upp i mars 2023. Det är en så kallad stor språkmodell. – Se artikel i Ars Technica och denna vetenskapliga artikel: arxiv.org/abs…. – IDG:s artiklar om Kosmos‑1: länk.

[generativ ai] [generativt språk] [5 mars 2023]

Antkare, Ike

en icke existerande forskare som 2010 var en av världens mest citerade vetenskapsmän. – ”Ike Antkare” (I can’t care) skapades av datorforskaren Cyril Labbé (länk). Labbé publicerade över 100 artiklar under ”Ike Antkares” namn. Alla var skrivna av textgeneratorn SCIgen och saknade vettigt innehåll. Men artiklarna innehöll massor med källhänvisningar till varandra. (Det är däremot osäkert ifall någon forskare faktiskt hade läst artiklarna.) Resultatet blev att ”Ike Antkare” fick hög placering i h‑index, ett rankningssystem för vetenskapsmän. ”Ike Antkare” var som högst nummer 21 på listan – högre än Albert Einstein. – Labbés syfte var att visa att rankningssystem som h‑index är värdelösa. – Se artikeln ”Ike Antkare one of the great stars in the scientific firmament” (länk) av Cyril Labbé. – Cyril Labbé har avslöjat ett stort antal publicerade ”vetenskapliga” artiklar som i själva verket är producerade av SCIgen. Han har utvecklat ett program som känner igen sådana artiklar – se scigendetection.imag.fr.

[bluff och båg] [fiktiva personer] [generativt språk] [1 mars 2023]

GPTZero

ett system som uppges kunna upptäcka ifall en text är skriven av språkmodellen ChatGPT. – Eftersom ChatGPT kan generera trovärdiga texter på akademisk nivå kan det användas för fusk. Det kan vara svårt eller omöjligt för en mänsklig bedömare att avgöra om texten är skriven av en människa eller av ChatGPT – i varje fall utan att fråga ut den påstådda skribenten. – GPTZero analyserar texten genom att jämföra den med vad ChatGPT brukar generera. Ju mer den testade texten liknar en typisk ChatGPT‑text i struktur, desto mer sannolikt är det att den faktiskt är genererad av ChatGPT. – GPTZero har utvecklats av den amerikanska studenten Edward Tian och presenterades i januari 2023. – Se gpt3demo….

[bluff och båg] [generativ AI] [språkteknik] [12 januari 2023]

ChatGPT

ett AI‑baserat system som kan generera texter som verkar vara skrivna av människor. – ChatGPT kan föra en skriftlig dialog (chatta) med en människa. Det kan också på begäran framställa längre texter, som akademiska uppsatser, om olika ämnen med trovärdigt resultat. Det kan också översätta. – ChatGPT (skrivs också Chat GPT) har utvecklats av företaget OpenAI och släpptes i november 2022. Det är en vidareutveckling av GPT‑3. – Det uppges i januari 2023 att Microsoft, som är delägare i OpenAI, kommer att integrera ChatGPT i sökmotorn Bing. – Abonnemangstjänsten ChatGPT+ tillkännagavs i februari 2023. Den är inledningsvis bara tillgänglig i USA. Se openai.com/blog…. – I grunden har ChatGPT ingen förståelse av vad det skriver, eller av vad den mänskliga motparten skriver. Systemet bygger på maskininlärning baserad på enorma insamlade textmängder och sammanställning och modifiering av passande textbitar (se stokastisk papegoja). Men till skillnad från liknande system kan ChatGPT ”hålla sig till ämnet”. I en chatt kommer det till exempel ihåg vad det har skrivit tidigare. – Det finns en uppenbar risk att studenter och andra använder ChatGPT för att skriva fuskuppsatser – läs om GPTZero. – Sångaren och låtskrivaren Nick Cave sågar ChatGPT: redhandfiles.com…. – Se chatgptonline.net. – IDG:s artiklar om ChatGPT: länk.

[chatt] [generativ AI] [generativt språk] [ändrad 26 april 2023]