Base 32

system för att koda binära sifferserier med 32 olika tecken. Man använder det engelska alfabetets bokstäver och siffertecknen 2—7. Noll blir ”A”, ett blir ”B” och så vidare till ”Z” för tjugofem. Sedan anges tjugosex med ”2” och så vidare till ”7” för trettioett. Trettiotvå blir ”BA”. – Base 32 är ett utrymmesbesparande sätt att koda sekvenser av ettor och nollor. Man tar fem ettor och nollor i taget och kodar om dem till ett tecken i Base 32. – Skrivs också base32 eller Base-32. – Läs mer i denna RFC (länk). – Jämför med Base 64, hexadecimal och oktal.

[matematik] [programmering] [25 februari 2018]

berusade sjömannen

den berusade sjömannens slumpvandring – the drunken sailor’s random walk – ett matematiskt problem som gäller slumpvandring. Den berusade sjömannen kommer ut från en krog i en stad där gatorna utgör ett rätvinkligt rutnät med begränsad och känd utsträckning. Sjömannen vill komma ut ur staden, men han är så full att han bara irrar omkring. I varje gatukorsning kan han gå rakt fram, till höger, till vänster eller tillbaka med samma sannolikhet. Utgångspunktens (krogens) position är känd. Hur hög är då sannolikheten för att sjömannen till sist hittar ut ur staden?

[sannolikhet] [ändrad 1 maj 2018]

Monte Carlo-metoden

(Monte Carlo method) – metod för att möjliggöra matematiska beräkningar baserade på stora datamängder genom att utgå från ett slumpmässigt urval ur datamängderna. Det är alltså en stokastisk metod för sampling. – Monte Carlo-metoden utvecklades på 1940‑talet för att ge användbara lösningar på matematiska problem som är för omfattande för att lösas med vanliga matematiska beräkningar. Den är uppkallad efter kasinot i Monte Carlo. I själva verket finns det flera Monte Carlo-metoder, men grundtanken är samma. – Skillnaden mellan Monte Carlo-metoden och slumpvandring är att slumpvandring genererar värden slumpmässigt; kör man metoden tillräckligt länge får värdena en statistiskt förutsägbar fördelning. Monte Carlo-metoden använder slumpmässiga metoder för att välja värden ur en stor datamängd. Om värdena i den stora datamängden är ojämnt fördelade kommer Monte Carlo-metoden, rätt tillämpad, att välja ut en delmängd med data som är ojämnt fördelade på samma sätt.

[sannolikhet] [21 februari 2018]

slumpvandring

(random walk) – en matematisk process där något rör sig slumpmässigt i en eller flera dimensioner. Rörelsen kan vara ett eller flera steg. – Slumpvandring används för att simulera eller beskriva många slags processer som ter sig slumpmässiga, från aktiekurser till molekylers rörelse. Det används också i datorvetenskap. – Den enklaste slumpvandringen är en vandring längs en rät linje: varje steg kan vara framåt (+1) eller bakåt (–1), och vilket det blir avgörs varje gång genom slantsingling. På lång sikt bör medelvärdet av positionerna bli noll. I två dimensioner kan man tänka sig en vandring i ett rätvinkligt gatunät som det på Manhattan: i varje gatukorsning väljer man höger, vänster, rakt fram eller tillbaka. För att man ska kunna tala om slumpvandring ska alla alternativen vara lika sannolika. Principen kan utvidgas till flera dimensioner, och man kan också ha ett slumpmässigt val mellan olika antal steg. Slumpvandring kallas ibland på engelska för drunken walk efter det matematiska problemet den berusade sjömannen. – Slumpvandring är en stokastisk process. – Läs också om Monte Carlo-metoden.

[sannolikhet] [21 februari 2018]

k-anonymitet

i statistik: mått på effektiviteten i pseudonymisering av data. – En förteckning av personuppgifter är k‑anonym om varje kombination av data i förteckningen förekommer minst k gånger. k står i varje konkret fall för en bestämd siffra. – Pseudonymisering används till exempel i statistisk analys av medicinska data. Innan vårdgivaren lämnar ut medicinska data för analys avlägsnas data som identifierar patienterna. Det är ofta uppenbart att det inte räcker med att ta bort uppgifter som direkt identifierar patienten, som namn och personnummer. En kombination av andra uppgifter, som var för sig inte är unika, kan räcka för att särskilja en person – se kvasiidentifierare och perturbation. Till exempel kanske kombinationen ålder, kön, yrke, bostadsort, antal barn. För att pseudonymiseringen ska bli effektiv måste man avlägsna så mycket information att varje kombination av egenskaper i förteckningen förekommer flera gånger – alltså passar in på flera personer. Man kan också generalisera egenskaper: i stället för att ange födelseår kan man ange födelsedecennium; i stället för bostadsort anger man län. Om varje kombination av egenskaper i tabellen passar på minst sju personer är tabellen 7‑anonymiserad, om varje kombination passar på minst elva personer är den 11‑anonymiserad. Och så vidare. – På engelska: k‑anonymity, k‑anonymization.

[personuppgifter] [statistik] [ändrad 10 november 2018]

kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]

utstickare

(outlier) – i statistik: ett värde som kraftigt avviker från de andra i en datamängd. Avvikelsen kan bero på ett fel eller ha rimliga orsaker. – Exempel: om alla familjer i ett bostadsområde uppges ha en årsinkomst på under 500 000 kronor, utom en familj som tjänar tio gånger så mycket, kan det vara korrekta värden. Men om det står att alla tioåriga barn i området är under 160 centimeter långa, utom ett barn, som är tre meter, är det säkert fel. – I statistisk analys utesluter man ibland utstickande värden rutinmässigt. Bortsett från att de kan vara fel kan de påverka medelvärden på ett missvisande sätt. – Outlier detection, utstickardetektion eller avvikardetektion, är användning av metoder, ofta automatiska, för att upptäcka utstickare. – Direktöversättningen utliggare förekommer, men den bör av två skäl inte användas: dels låter det likt uteliggare, dels heter det inte att avvikande värden ligger ut – de sticker ut.

[statistik] [29 januari 2018]