Monte Carlo-metoden

(Monte Carlo method) – metod för att möjliggöra matematiska beräkningar baserade på stora datamängder genom att utgå från ett slumpmässigt urval ur datamängderna. Det är alltså en stokastisk metod för sampling. – Monte Carlo-metoden utvecklades på 1940‑talet för att ge användbara lösningar på matematiska problem som är för omfattande för att lösas med vanliga matematiska beräkningar. Den är uppkallad efter kasinot i Monte Carlo. I själva verket finns det flera Monte Carlo-metoder, men grundtanken är samma. – Skillnaden mellan Monte Carlo-metoden och slumpvandring är att slumpvandring genererar värden slumpmässigt; kör man metoden tillräckligt länge får värdena en statistiskt förutsägbar fördelning. Monte Carlo-metoden använder slumpmässiga metoder för att välja värden ur en stor datamängd. Om värdena i den stora datamängden är ojämnt fördelade kommer Monte Carlo-metoden, rätt tillämpad, att välja ut en delmängd med data som är ojämnt fördelade på samma sätt.

[sannolikhet] [21 februari 2018]

slumpvandring

(random walk) – en matematisk process där något rör sig slumpmässigt i en eller flera dimensioner. Rörelsen kan vara ett eller flera steg. – Slumpvandring används för att simulera eller beskriva många slags processer som ter sig slumpmässiga, från aktiekurser till molekylers rörelse. Det används också i datorvetenskap. – Den enklaste slumpvandringen är en vandring längs en rät linje: varje steg kan vara framåt (+1) eller bakåt (–1), och vilket det blir avgörs varje gång genom slantsingling. På lång sikt bör medelvärdet av positionerna bli noll. I två dimensioner kan man tänka sig en vandring i ett rätvinkligt gatunät som det på Manhattan: i varje gatukorsning väljer man höger, vänster, rakt fram eller tillbaka. För att man ska kunna tala om slumpvandring ska alla alternativen vara lika sannolika. Principen kan utvidgas till flera dimensioner, och man kan också ha ett slumpmässigt val mellan olika antal steg. Slumpvandring kallas ibland på engelska för drunken walk efter det matematiska problemet den berusade sjömannen. – Slumpvandring är en stokastisk process. – Läs också om Monte Carlo-metoden.

[sannolikhet] [21 februari 2018]

k-anonymitet

i statistik: mått på effektiviteten i pseudonymisering av data. – En förteckning av personuppgifter är k‑anonym om varje kombination av data i förteckningen förekommer minst k gånger. k står i varje konkret fall för en bestämd siffra. – Pseudonymisering används till exempel i statistisk analys av medicinska data. Innan vårdgivaren lämnar ut medicinska data för analys avlägsnas data som identifierar patienterna. Det är ofta uppenbart att det inte räcker med att ta bort uppgifter som direkt identifierar patienten, som namn och personnummer. En kombination av andra uppgifter, som var för sig inte är unika, kan räcka för att särskilja en person – se kvasiidentifierare och perturbation. Till exempel kanske kombinationen ålder, kön, yrke, bostadsort, antal barn. För att pseudonymiseringen ska bli effektiv måste man avlägsna så mycket information att varje kombination av egenskaper i förteckningen förekommer flera gånger – alltså passar in på flera personer. Man kan också generalisera egenskaper: i stället för att ange födelseår kan man ange födelsedecennium; i stället för bostadsort anger man län. Om varje kombination av egenskaper i tabellen passar på minst sju personer är tabellen 7‑anonymiserad, om varje kombination passar på minst elva personer är den 11‑anonymiserad. Och så vidare. – På engelska: k‑anonymity, k‑anonymization.

[personuppgifter] [statistik] [ändrad 10 november 2018]

kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]

utstickare

(outlier) – i statistik: ett värde som kraftigt avviker från de andra i en datamängd. Avvikelsen kan bero på ett fel eller ha rimliga orsaker. – Exempel: om alla familjer i ett bostadsområde uppges ha en årsinkomst på under 500 000 kronor, utom en familj som tjänar tio gånger så mycket, kan det vara korrekta värden. Men om det står att alla tioåriga barn i området är under 160 centimeter långa, utom ett barn, som är tre meter, är det säkert fel. – I statistisk analys utesluter man ibland utstickande värden rutinmässigt. Bortsett från att de kan vara fel kan de påverka medelvärden på ett missvisande sätt. – Outlier detection, utstickardetektion eller avvikardetektion, är användning av metoder, ofta automatiska, för att upptäcka utstickare. – Direktöversättningen utliggare förekommer, men den bör av två skäl inte användas: dels låter det likt uteliggare, dels heter det inte att avvikande värden ligger ut – de sticker ut.

[statistik] [29 januari 2018]

Merkleträd

(Merkle tree) – ett antal dokument eller annan information som skyddas mot manipulation av  kondensat i en trädformad struktur. – I Merkleträdets löv eller slutnoder (de nedersta och yttersta noderna i det upp-och-nervända trädet) finns de dokument eller den information som ska skyddas. Varje löv innehåller också ett kondensat av sitt innehåll. Varje löv har en gren till en nod en nivå högre upp i nätverket: vanligtvis går det två löv på varje närmast högre nod, men det kan vara tre eller fler. Den högre noden innehåller ett kondensat av de två (eller fler) lövens kondensat. På samma sätt har de högre noderna grenar till noder på närmast högre nivå, och där beräknas på samma sätt kondensat av kondensaten på de två (eller fler) närmast underordnade noderna. Överst i Merkleträdet finns en toppnod som innehåller ett kondensat av de närmast underordnade noderna, alltså ett kondensat av kondensat av kondensat hela vägen ner till trädets löv. – Om innehållet i de nedersta noderna (löven) ändras på något sätt förändras också kondensaten. Det är alltså möjligt att upptäcka ändringar genom att upprepa beräkningen av kondensaten. – Merkleträdet utvecklades och patenterades 1979 av den amerikanska datorvetaren Ralph Merkle (merkle.com).

[kryptering] [matematik] [10 januari 2018]

gig

  1. – ursprungligen: spelning (för musiker eller DJ), i överförd betydelse: tillfälligt jobb, knäck. Ordet används både på svenska och engelska. Gig i denna betydelse stavas så på svenska, men i bestämd form blir det gigget. – Se också gig economy och jämför med hack;
  2. – kort för giga som i gigabyte. ”Hårddisken är på 500 gig.”

[arbetsmarknad] [multipelprefix] [21 december 2017]

p-hacking

ett slags fusk med statistik. När man ska redovisa en undersökning sorterar man bort tillräckligt många oönskade resultat för att utfallet ska bli det man önskar. p står för probability, sannolikhet; se också hack.

[sannolikhet] [20 december 2017]