SCIgen

ett program som automatiskt skriver sken­bart veten­skapliga artiklar. – I själva verket är det ord och fraser ur andra veten­skapliga artiklar som kombi­ne­ras enligt pro­grammets regler. – SCIgen skrevs 2005 av Jeremy Stribling (länk, föråldrad), Dan Aguayo och Maxwell Krohn (länk). Syftet var att belysa att många veten­skapliga artiklar i själva verket är mer eller mindre menings­lösa samman­ställningar av ord och fraser. Stribling, Aguayo och Krohn lät SCIgen sätta ihop en artikel som sedan antogs som bidrag på en veten­skaplig kon­ferens, trots att inne­hållet var nonsens. Sedan dess har flera vetenskapliga förlag publicerat artiklar som har pro­ducerats med SCIgen. – SCIgen finns för ner­laddning på MIT:s webbsidor: länk. Där finns också mer information om SCIgen. – Läs också om the Dada EngineChi, ett liknande pro­gram för rubriker, och om robot­för­fattare samt om Eliza.

[artificiell skenbar intelligens] [källkritik] [mjukvarurobotar] [språkteknik] [ändrad 23 maj 2020]

burst

skur, utbrott, explosion, blixt – intensivt flöde av händelser eller information under kort tid:

 1. – i data- och telekommunikation: skur – en koncentrerad mängd information som sänds i en tidslucka i tidsmultiplex. Mottagarens telefon saktar ner skurarna och sätter samman dem till ett begripligt meddelande;
 2. word burst – se ordskur.

[elektronisk kommunikation] [språkteknik] [ändrad 17 november 2019]

 

ISWC

 1. – International semantic web conference – årlig konferens om den se­man­tiska webben. Har anordnats sedan 2002. – Se denna länk;
 2. – International standard music work code – internationell standard för iden­ti­fi­e­ring av musikaliska verk. Numret identifierar musiken som sådan, oavsett hur den sprids och spelas. För noter finns en annan standard, ISMN, och för inspelningar finns standarden ISRC. – Läs mer på iswc.org.

[förkortningar på I] [konferenser] [musik] [språkteknik] [webben] [ändrad 22 maj 2017]

T9

en teknik för prediktiv textinmatning på mobiltelefoner. (En typ av autoförslag.) Numera ovanligt, men används fortfarande. – T9 användes av de flesta kända tillverkare av mobiltelefoner så länge som mobiltelefonerna hade mekaniska knappsatser med siffrorna 0–9. Smarta mobiler med pekskärm brukar lösa samma uppgift på andra sätt. – T9 underlättar textinmatning genom att med statistiska metoder räkna ut vilket ord användaren tänker skriva. Problemet med att det finns flera bokstäver på varje knapp i knappsatsen, vilket annars löses genom upprepa­de tryckningar på samma knapp (till exempel med fyra tryck på 7 för att skriva S), löser T9 genom att förutse vilken bokstav man vill ha. Man kan alltså skriva ett S med en tryckning på 7, förutsatt att S:et ingår i ett ord som T9 känner igen. (Se också textonym.) Detta sker genom en kombination av ordlistor och statistik över ordfrekvenser. – T9 ut­veck­la­des av företaget Tegic Communications som 2007 köptes av Nuance Communications. – Se Nuances webbsidor.

[mobilt] [språkteknik] [ändrad 3 april 2020]

Watson

ett datorsystem från IBM, konstruerat för att sammanställa information från enorma datamängder så att den kan behandlas med naturligt språk. Watson ska kunna tolka och besvara frågor som ställs i naturligt språk. Det har blivit kärnan i IBM:s system med webbaserade tjänster för frågor och svar, skriftligen eller muntligen (se talgränssnitt). – Systemets första uppgift var att tävla i fråge­­sporten Jeopardy. Wat­son tävlade i februari 2011 framgångsrikt mot mänsk­liga Jeopardy­­­mästare i USA. Då bestod Watson av tio skåp med totalt 90 servrar och samman­­lagt 2 880 processorer. Watson fungerade i tävlingen fri­­­stå­ende, utan an­­slut­ning till inter­­­net: all information som behövdes för att besvara frågorna var lagrad på servrarna. – Systemet är upp­­kallat efter IBM:s grundare, Thomas J Watson (men namnet för givetvis också tankarna till Sherlock Holmes hävdatecknare doktor Watson). – Det djupare syftet med ut­­veck­lingen av Watson är att utveckla tekniker för förstå­else av natur­ligt språk, infor­ma­tions­­­utvinning ur stora text­­­massor och for­mu­ler­ing av korrekt ut­tryckta svar på frågor. Watson-tekniken ska kunna användas till exempel som hjälp­­medel för läkare. – Under 2013 öppnade IBM Watson för externa kunder som erbjöds att mata Watson med egen informa­tion för att sedan kunna använda det för kun­skaps­ut­vinning. Leksaks­till­verkaren Elemental Path ska använda Watson i talande leksaker, se Cognitoys†. – Läs mer på ibm.com/watson. – Läs också om Verse. – Jämför med Wolfram Alpha och med Amazon Echo, Apples Siri, Facebook M, Microsofts Cortana och Sound­hounds Hound.

[ai] [talgränssnitt] [ändrad 5 september 2019]

Eliza

ett datorprogram som kunde parodiera en psykoterapeut i skriftlig dialog med en människa. – Programmet, med en nyare term en dialogrobot, använde knep som att göra frågor av den mänskliga mot­partens utsagor: ”Jag har huvud­värk.” – ”Varför tror du att du har huvudvärk?”. Program­met kunde därigenom ge intryck av att förstå och veta mer än vad det faktiskt gjorde (nämligen ingenting). – Eliza skrevs och utvecklades 1964—1966 av Joseph Weizen­baum (1923—2008, se Wikipedia) på MIT. Syftet med programmet var inte att visa att datorer kan föra en riktig dialog, utan att visa att människor låter sig duperas av ett relativt enkelt program. Weizenbaum beskrev Eliza som en parodi på hur psyko­tera­peuter talar med sina patienter. – The Eliza effect, Eliza‑effekten – det att ett program för artificiell intelligens, liksom Eliza, verkar vara mer intelligent än det faktiskt är. – Eliza har återskapats i en version som finns på nätet – klicka här. – Namnet: Eliza syftar på ”Eliza Doolittle”, huvud­person i George Bernard Shaws pjäs Pygmalion och i musikalversionen My fair lady. – Läs också om Jolly Roger Telephone Co., ”Eugene Goostman” och om Elbot.

[it-historia] [kuriosa] [mjukvarurobotar] [psykologi][språkteknik] [ändrad 19 januari 2018]

stoppord

(stop words) – vanliga men betydelsefattiga ord som ignoreras vid indexering av textmassor. Det är ord som i, , och och att, så kallade funktionsord. I ett index som människor använder för informationssökning är det oftast onödigt, för att inte säga störande, att räkna upp alla ställen där ord som att förekommer i texterna. Men funktionsord kan vara intressanta, till exempel i datoriserade index där man vill kunna söka på hela fraser. Därför utesluter till exempel Google inte stoppord. Där stoppord används ingår de i en stoppordslista (stop word list) som har sammanställts av en människa. – Anmärkning: Ordet stoppord används ibland om ord, till exempel könsord, som används för att filtrera bort webbsidor som anses olämpliga, men det är inte den ursprungliga betydelsen.

[språkteknik] [sökmotorer] [ändrad 11 januari 2018]

clbuttic

superpryd omskrivning av classic – beteckning på idiotiska försök att ersätta fula ord med mindre fula ord: en oge­nom­tänkt sök / ersätt har bytt ut ass i classic mot butt. – Andra klbut­tiska exempel är när löparen Tyson Gay blev Tyson Homosexual och när the American constitution blev the American consbreastution. – Se artikel i Daily Telegraph: länk. – Läs också om apyware, the Cupertino effect och Scunthorpeproblemet.

[fel] [kuriosa] [språkteknik] [ändrad 27 maj 2020]

Babel fish

 1. – avvecklad tjänst för maskin­­över­sättning på internet. – Babel fish ut­veck­lades av Digital och Systran, och lanserades 1997 som en tjänst knuten till sök­­motorn Alta­vista†. Yahoo blev så småningom ägare till Alta­vista, så 2008 knöts översättnings­tjänsten till Yahoos sök­­motor. Tjänsten användes sedan av Micro­softs sök­motor Bing, fast det var då fortfarande Yahoo som ägde Babel fish. – Som­maren 2012 upp­hörde tjänsten när Micro­soft började använda en egen­­utvecklad över­sättnings­­tjänst;
 2. Babelfish Corporation – en webbaserad maskinöver­sättnings­­tjänst grundad 1999 av kanadensaren Oscar Jofre, se babelfish.com.

– Namnet: Babel fish kommer av den lilla över­sättnings­­fisken, babel­fisken, i Douglas Adams Liftarens guide till galaxen.

[maskinöversättning] [nerlagt] [ändrad 1 november 2017]

token

– markör, igenkänningstecken, tecken, kännetecken, informationsbärare, värdebärare, symbol, pollett, rabattkupong, presentkort; något som inte har något nämnvärt eget värde, men som är värdefullt eller användbart i ett givet sammanhang:

 1. – i säkerhetssystem: igenkänningstecken, informationsbärare, besittningsfaktor – föremål (dosa, kort), datafil eller godtyckligt vald information (lösenord) som användaren måste ha för att autentisera sig. – Se också tokenisering;
 2. – i datornätet token ring: turmarkör, kölapp (som visar vems tur det är att sända);
 3. – i programmering: token (även på svenska) – ord och tecken med bestämda funk­tioner i programspråk – jämför med lexem;
 4. – i språkvetenskap: ord eller andra språkliga enheter i text som be­ar­betas med dator­stödda metoder, se token­isering, be­ty­delse 2;
 5. rabattkupong, presentkort, pollett eller annan värdebärare som inte är pengar, och som saknar eget värde. Den har bara värde i ett givet sammanhang;
 6. – beteckning på pengar (crypto tokens) i kryptovalutor. – Se också tokenomics.

– Se också voken.

[betalningar] [identifiering] [nätverk] [programmering] [språkteknik] [språktips] [ändrad 24 april 2020]