berusade sjömannen

den berusade sjömannens slumpvandring – the drunken sailor’s random walk – ett matematiskt problem som gäller slumpvandring. Den berusade sjömannen kommer ut från en krog i en stad där gatorna utgör ett rätvinkligt rutnät med begränsad och känd utsträckning. Sjömannen vill komma ut ur staden, men han är så full att han bara irrar omkring. I varje gatukorsning kan han gå rakt fram, till höger, till vänster eller bakåt med samma sannolikhet. Utgångspunktens (krogens) position är känd. Hur hög är då sannolikheten för att sjömannen till sist hittar ut ur staden? – En simulering finns på denna länk.

[sannolikhet] [ändrad 31 juli 2020]

Monte Carlo-metoden

(Monte Carlo method) – metod för att möjliggöra matematiska beräkningar baserade på stora datamängder genom att utgå från ett slumpmässigt urval ur datamängderna. Det är alltså en stokastisk metod för sampling. – Monte Carlo-metoden utvecklades på 1940‑talet för att ge användbara lösningar på matematiska problem som är för omfattande för att lösas med vanliga matematiska beräkningar. Den är uppkallad efter kasinot i Monte Carlo; Monte Carlo är också i USA ett gammalt ord för roulettehjul. I själva verket finns det flera Monte Carlo‑metoder, men grundtanken är samma. – Skillnaden mellan Monte Carlo‑metoden och slumpvandring är att slumpvandring genererar värden slumpmässigt; kör man metoden tillräckligt länge får värdena en statistiskt förutsägbar fördelning. Monte Carlo‑metoden använder slumpmässiga metoder för att välja värden ur en stor datamängd. Om värdena i den stora datamängden är ojämnt fördelade kommer Monte Carlo‑metoden, rätt tillämpad, att välja ut en delmängd med data som är ojämnt fördelade på samma sätt.

[sannolikhet] [ändrad 11 juni 2020]

slumpvandring

(random walk) – en matematisk process där något rör sig slumpmässigt i en eller flera dimensioner. Rörelsen kan vara ett eller flera steg. – Slumpvandring används för att simulera eller beskriva många slags processer som ter sig slumpmässiga, från aktiekurser till molekylers rörelse. Det används också i datorvetenskap. – Den enklaste slumpvandringen är en vandring längs en rät linje: varje steg kan vara framåt (+1) eller bakåt (–1), och vilket det blir avgörs varje gång genom slantsingling. På lång sikt bör medelvärdet av positionerna bli noll. I två dimensioner kan man tänka sig en vandring i ett rätvinkligt gatunät som det på Manhattan: i varje gatukorsning väljer man höger, vänster, rakt fram eller tillbaka. För att man ska kunna tala om slumpvandring ska alla alternativen vara lika sannolika. Principen kan utvidgas till flera dimensioner, och man kan också ha ett slumpmässigt val mellan olika antal steg. Slumpvandring kallas ibland på engelska för drunken walk efter det matematiska problemet den berusade sjömannen. – Slumpvandring är en stokastisk process. Det är ett specialfall av Markovkedjan. – Läs också om Monte Carlo-metoden.

[sannolikhet] [ändrad 13 juni 2021]

k-anonymitet

i statistik: mått på effektiviteten i pseudonymisering av data. – En förteckning av personuppgifter är k‑anonym om varje kombination av data i förteckningen förekommer minst k gånger. k står i varje konkret fall för en bestämd siffra. – Pseudonymisering används till exempel i statistisk analys av medicinska data. Innan vårdgivaren lämnar ut medicinska data för analys avlägsnas data som identifierar patienterna. Det är ofta uppenbart att det inte räcker med att ta bort uppgifter som direkt identifierar patienten, som namn och personnummer. En kombination av andra uppgifter, som var för sig inte är unika, kan räcka för att särskilja en person – se kvasiidentifierare och perturbation. Till exempel kanske kombinationen ålder, kön, yrke, bostadsort, antal barn. För att pseudonymiseringen ska bli effektiv måste man avlägsna så mycket information att varje kombination av egenskaper i förteckningen förekommer flera gånger – alltså passar in på flera personer. Man kan också generalisera egenskaper: i stället för att ange födelseår kan man ange födelsedecennium; i stället för bostadsort anger man län. Om varje kombination av egenskaper i tabellen passar på minst sju personer är tabellen 7‑anonymiserad, om varje kombination passar på minst elva personer är den 11‑anonymiserad. Och så vidare. – På engelska: k‑anonymity, k‑anonymization.

[personuppgifter] [statistik] [ändrad 10 november 2018]

kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]

utstickare

(outlier) – i statistik: ett värde som kraftigt avviker från de andra i en datamängd. Avvikelsen kan bero på ett fel eller ha rimliga orsaker. – Exempel: om alla familjer i ett bostadsområde uppges ha en årsinkomst på under 500 000 kronor, utom en familj som tjänar tio gånger så mycket, kan det vara korrekta värden. Men om det står att alla tioåriga barn i området är under 160 centimeter långa, utom ett barn, som är tre meter, är det säkert fel. – I statistisk analys utesluter man ibland utstickande värden. Bortsett från att de kan vara uppenbart fel kan de påverka medelvärden på ett missvisande sätt (jämför med median). – Outlier detection, utstickardetektion eller avvikardetektion, är användning av metoder, ofta automatiska, för att upptäcka utstickare. – Direktöversättningen utliggare förekommer, men den bör av två skäl inte användas: dels låter det likt uteliggare, dels heter det inte att avvikande värden ligger ut – de sticker ut.

[statistik] [ändrad 11 juni 2020]

Merkleträd

(Merkle tree) – ett antal dokument eller annan information som skyddas mot manipulation av  kondensat i en trädformad struktur. – I Merkleträdets löv eller slutnoder (de nedersta och yttersta noderna i det upp‑och‑nervända trädet) finns de dokument eller den information som ska skyddas. Varje löv innehåller också ett kondensat av sitt innehåll. Varje löv har en gren (kant) till en nod en nivå högre upp i trädet: vanligtvis går det två löv på varje närmast högre nod, men det kan vara tre eller fler. Den högre noden innehåller ett kondensat av de två (eller fler) lövens kondensat. På samma sätt har de högre noderna grenar till noder på närmast högre nivå, och där beräknas på samma sätt kondensat av kondensaten på de två (eller fler) närmast underordnade noderna. Överst i Merkleträdet finns en toppnod som innehåller ett kondensat av de närmast underordnade noderna, alltså ett kondensat av kondensat av kondensat hela vägen ner till trädets löv. – Om innehållet i de nedersta noderna (löven) ändras på något sätt förändras också kondensaten. Det är alltså möjligt att upptäcka ändringar genom att upprepa beräkningen av kondensaten. – Merkleträdet utvecklades och patenterades 1979 av den amerikanska datorvetaren Ralph Merkle (merkle.com).

[kryptering] [matematik] [ändrad 7 oktober 2019]

gig

  1. – ursprungligen: spelning (för musiker eller DJ), i överförd betydelse: tillfälligt jobb, knäck. Ordet används både på svenska och engelska. Gig i denna betydelse kan stavas så på svenska, alternativt gigg, men i bestämd form blir det gigget. – Se också giggekonomi och jämför med hack;
  2. – kort för giga som i gigabyte. ”Hårddisken är på 500 gig.”

[giggekonomi] [multipelprefix] [21 december 2017]