bias

  1. – missvisande bild av något, orsakad av medvetna eller omedvetna förutfattade meningar; fördomar, partiskhet, vinkling;
  2. – i maskininlärning – tendens hos en algoritm som har utvecklats med maskininlärning att söka efter lösningar som liknar lösningarna på de de problem som algoritmen har tränats med. Men sådana kända lösningar behöver inte vara representativa för lösningarna till andra problem som är nya för algoritmen;
  3. – i statistik och annan vetenskaplig verksamhet: metodfel – systematiskt fel vid insamling och urval av data.

– Ordet bias används både på svenska och engelska.

[fel] [maskininlärning] [statistik] [29 april 2019]

selektion

– val, urval:

  1. – i programkörning: programmets val mellan två eller flera alternativ (hopp) vid en punkt i programkörningen; valet bestäms vid varje enskild körning av utfallet av tidigare beräkningar eller av andra omständigheter som programmet känner till:
  2. – i statistik: urval – den del av den totala relevanta populationen som undersöks, och som man sedan drar slutsatser om hela populationen från. För att man ska kunna dra korrekta slutsatser måste urvalet / selektionen vara representativt för helheten, annars talar man om urvalsfel.

– På engelska: selection.

[programkörning] [statistik] [24 september 2018]

inferens

  1. – i logik och psykologi: bedömning som görs delvis med ledning av sådant som är känt sedan tidigare, eller med ledning av sammanhanget. Kallas också för slutledning. – Exempel: dörren är låst, ingen svarar när du ringer på dörrklockan, bilen är borta – inferens / slutledning: ingen är hemma. Det är ingen logiskt nödvändig slutsats, men troligen rätt ändå. – I det dagliga livet gör vi liknande inferenser automatiskt många gånger varje dag. Det blir inte alltid rätt, men oftast. Inom artificiell intelligens används programmerad inferens för att göra slutledningar av kända data. Man talar om inference engines, inferensmaskiner. (Läs också om Cyc.) Det handlar då om statistisk inferens, alltså att dra generella slutsatser utifrån ett urval av data. – Skillnaden mot formellt logiska slutsatser är att formellt logiska slutsatser görs enbart utifrån premisser som är kända och givna i klartext;
  2. inferensattack – sätt för angripare att dra slutsatser om hemlig information genom att analysera information som inte är hemlig. Man använder tillgänglig information från en lägre sekretessnivå, eller utan sekretess, för att dra slutsatser om information på en högre sekretessnivå. Det kräver genomtänkta motåtgärder.

– På engelska: inference; inference attack.

[artificiell intelligens] [attacker] [logik] [psykologi] [statistik] [ändrad 7 september 2018]

k-anonymitet

i statistik: mått på effektiviteten i pseudonymisering av data. – En förteckning av personuppgifter är k‑anonym om varje kombination av data i förteckningen förekommer minst k gånger. k står i varje konkret fall för en bestämd siffra. – Pseudonymisering används till exempel i statistisk analys av medicinska data. Innan vårdgivaren lämnar ut medicinska data för analys avlägsnas data som identifierar patienterna. Det är ofta uppenbart att det inte räcker med att ta bort uppgifter som direkt identifierar patienten, som namn och personnummer. En kombination av andra uppgifter, som var för sig inte är unika, kan räcka för att särskilja en person – se kvasiidentifierare och perturbation. Till exempel kanske kombinationen ålder, kön, yrke, bostadsort, antal barn. För att pseudonymiseringen ska bli effektiv måste man avlägsna så mycket information att varje kombination av egenskaper i förteckningen förekommer flera gånger – alltså passar in på flera personer. Man kan också generalisera egenskaper: i stället för att ange födelseår kan man ange födelsedecennium; i stället för bostadsort anger man län. Om varje kombination av egenskaper i tabellen passar på minst sju personer är tabellen 7‑anonymiserad, om varje kombination passar på minst elva personer är den 11‑anonymiserad. Och så vidare. – På engelska: k‑anonymity, k‑anonymization.

[personuppgifter] [statistik] [ändrad 10 november 2018]

kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]

utstickare

(outlier) – i statistik: ett värde som kraftigt avviker från de andra i en datamängd. Avvikelsen kan bero på ett fel eller ha rimliga orsaker. – Exempel: om alla familjer i ett bostadsområde uppges ha en årsinkomst på under 500 000 kronor, utom en familj som tjänar tio gånger så mycket, kan det vara korrekta värden. Men om det står att alla tioåriga barn i området är under 160 centimeter långa, utom ett barn, som är tre meter, är det säkert fel. – I statistisk analys utesluter man ibland utstickande värden. Bortsett från att de kan vara uppenbart fel kan de påverka medelvärden på ett missvisande sätt (jämför med median). – Outlier detection, utstickardetektion eller avvikardetektion, är användning av metoder, ofta automatiska, för att upptäcka utstickare. – Direktöversättningen utliggare förekommer, men den bör av två skäl inte användas: dels låter det likt uteliggare, dels heter det inte att avvikande värden ligger ut – de sticker ut.

[statistik] [ändrad 11 juni 2020]

irisdatamängden

(the iris flower data setFisher’s iris data set eller Anderson’s iris data set) – en datamängd som ofta används för testning av program för statistisk analys och klassificering. Det är en systematisk samling uppgifter om tre arter av blomman iris, insamlad och sammanställd på 1930‑talet av den amerikanska botanisten Edgar Anderson (se Wikipedia). Den brittiska biologen och statistikern Ronald Fisher (se Wikipedia) använde datamängden 1936 i en artikel om statistisk analys. Ända sedan dess har irisdatamängden använts i undervisning och testning, oftast utan minsta anknytning till botanik. – Irisdatamängden finns för nerladd­ning på denna länk.

[analys] [statistik] [ändrad 11 juni 2020]