hyperparameter

i maskininlärning: parameter som anges innan maskininlärningen påbörjas. – Värden för andra parametrar fastställs som resultat av maskininlärningen, men hyperparametrar är alltså inställda på förhand. (De kan givetvis ändras vid behov av användaren.) De bidrar till att styra inlärningsprocessen. – Terminologiskt handlar det snarare om det som kallas för argument, alltså bestämda värden för parametrar.

[maskininlärning] [10 augusti 2022]

syntetiska data

datamängd som har tagits fram för att användas i maskininlärning, men som inte är ett underlag som hämtats ur verkliga förhållanden. – Man vill ha ett underlag som är bättre för syftet med maskininlärningen än vad data ur verkligheten skulle vara. Lämpliga data kan vara svåra eller olämpliga att få fram ur verkliga förhållanden. Syntetiska data kan också användas för att undvika algoritmisk snedvridning. – Ett exempel är hur man tränar styrsystem för självkörande bilar att undvika olyckor: det är omöjligt att skaffa ett stort antal videor av verkliga trafikolyckor eller hotande olyckor, tagna ur bilens perspektiv. För att träna systemet framställer man i stället datoranimeringar. När det gäller självkörande bilar är det viktigaste ju inte att man har ett representativt urval av olyckor, utan man vill träna systemet även på mycket sällsynta situationer. – Man kan också utgå från ”verkliga” data från ett mindre antal personer och använda dessa data i olika kombinationer på syntetiska personer som används för träning i maskininlärning. Man kan se detta som en variant av sampling. Det påminner också om vad som i statistik kallas för omvägning eller kalibrering (se scb.se/hitta…). – På engelska: synthetic data, ibland även: fake data.

[data] [maskininlärning] [statistik] [19 juni 2022]

DALL-E

Bild som genererats av AI-programmet DALL-E.
Inga tecknare medverkade vid framställningen av denna bild.

ett program som genererar bilder utifrån beskrivningar i ord. – DALL‑E kan till exempel rita ”en fåtölj i form av en avocado” eller ”en rättika i balettkjol som är ute och går med en hund”. Detta förutsätter dels förståelse av naturligt språk, dels maskininlärning baserad på bildsökning med igenkänning av motiv. DALL‑E är ett projekt inom projektet OpenAI (openai.com). Det är ett exempel på generativ konst. Den första versionen presenterades 2021, en ny version, DALL‑E 2, presenterades 2022. – Se openai.com/dall‑e‑2.

[ai] [bildbehandling] [ändrad 1 juli 2022]

GPT-3

ett system som kan producera text som verkar vara skriven av människor. – GPT‑3 bygger på ett enormt system för maskininlärning, baserat på mängder av autentisk text. Om en användare matar in början på en text ger GPT‑3 förslag om hur texten ska fortsätta. Man kan också ge GPT‑3 förebilder för den text man önskar få skriven. Systemet fungerar utan mänsklig handledning. – Ett problem, som påpekades av forskare kort efter att GPT‑3 presenterades (se denna länk), är att systemet kan producera alla slags text. Det kan alltså framställa falska nyheter, spam och näthat – allt baserat på inslag i de väldiga textmassor, insamlade från internet, som används för maskininlärningen. – GPT‑3 presenterades 2020, och är utvecklat av företaget OpenAI (openai.com). Samma år köpte Microsoft exklusiv licens till GPT‑3. Andra kan använda GPT‑3 genom ett API, men bara Microsoft har tillgång till det underliggande systemet. GPT står för generative pre‑trained transformer. Det finns två tidigare liknande system. Ibland talar man om GPT-n. – Se openai.com/blog/openai-api.

[förkortningar på G] [maskininlärning] [språkteknik] [23 mars 2022]

algorithmic reparation

algoritmisk kompensation, algoritmiskt skadestånd – djupgående åtgärder för att motverka algoritmisk snedvridning. – Förespråkare av algoritmisk kompensation vill gå längre än vad fair machine learning (FML) går. De föreslår till exempel kuratering (manuell sållning) av de data som används i maskininlärning. Bakgrunden är främst att algoritmisk snedvridning drabbar främst svarta amerikaner och andra invandrare på ett orättvist sätt. Algoritmisk kompensation utgår från att detta inte kan motverkas enbart genom att man förändrar algoritmerna för maskininlärning. – Mer i denna artikel: journals.sagepub.com… från 2021. (Brukar fungera, även om länken är överstruken.) [Observera att det engelska ordet reparation här används närmast i betydelsen skadestånd, som i war reparations.)

[maskininlärning] [ändrad 20 maj 2022]

överföringsinlärning

(transfer learning) – en form av maskinlärning där programmet tränas på en typ av uppgifter för att senare kunna lösa en annan, liknande typ av uppgifter. – Ett enkelt exempel är att ett program som tränats att känna igen bilder av katter i fotografier troligen lätt kan anpassas för att känna igen bilder av hundar. Men en vanlig anledning till att man använder överföringsinlärning är att det finns för lite material från måldomänen för att man ska kunna träna maskininlärningsprogrammet med det. Därför tränar man programmet på liknande material som det finns mer av (källdomänen) och tillämpar sedan det på måldomänen. Ett annat exempel är när man ska lära ett program att känna igen fotgängare i mörker. Sådana bilder har få detaljer och är därför svåra för ett program att analysera. Man börjar då med att träna programmet på bilder av fotgängare i dagsljus. Då lär sig programmet vad det ska leta efter i en bild för att hitta fotgängare, och det kan underlätta analysen av bilder av fotgängare tagna i mörker.

– Termer:

  • Måldomän (target domain) – det område som man vill tillämpa maskininlärningen på;
  • Måluppgift (target task) – den uppgift som programmet ska lösa;
  • Källdomän (source domain) – det område som programmet först tränas på i överföringsinlärning;
  • Källuppgift (source task) – den uppgift som programmet tränas att lösa i källdomänen.

[maskininlärning] [5 april 2021]