data set

(eller dataset) – datamängd – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; data set kan då ses som en synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan data set / datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [14 februari 2020]

labeling farm

etiketteringsfarm, etiketteringsfabrik – arbetsplats där människor sätter beskrivande etiketter på sådant som visas på bildskärmar. Det kan till exempel vara för system för självkörande bilar: etiketterna har då text som ”vägmärke”, ”bil”, ”cyklist”… Sådana etiketter och etiketteringsfabrikerna som lägger in dem är viktiga komponenter i vissa system för artificiell intelligens och maskininlärning. Människor är nämligen fortfarande bättre på etikettering än datorprogram (se human intelligence task). Labeling farms bemannas oftast av lågavlönad personal i fattiga länder. – Stavas också labelling farm.

[arbetsliv] [artificiell intelligens] [9 maj 2019]

bias

  1. – missvisande bild av något, orsakad av medvetna eller omedvetna förutfattade meningar; fördomar, partiskhet, vinkling;
  2. – i maskininlärning – tendens hos en algoritm som har utvecklats med maskininlärning att söka efter lösningar som liknar lösningarna på de de problem som algoritmen har tränats med. Men sådana kända lösningar behöver inte vara representativa för lösningarna till andra problem som är nya för algoritmen;
  3. – i statistik och annan vetenskaplig verksamhet: metodfel – systematiskt fel vid insamling och urval av data.

– Ordet bias används både på svenska och engelska.

[fel] [maskininlärning] [statistik] [29 april 2019]

boosting

förstärkning, förbättring, trimning; to boost – att förstärka, att sätta fart på – allmänt ord för att göra något snabbare och / eller mer effektivt. Ordet används i synnerhet om maskininlärning. Då står det för sätt att få mer precisa resultat genom att förbättra algoritmerna.

[maskininlärning] [språktips] [3 september 2018]