normalfördelningskurva

en kurva som beskriver den fördelning av värden som i statistisk teori anses mest sannolik. – Kurvan har formen av en kulle eller en kyrk­klocka och kallas därför på engelska för bell curve. De värden som ligger runt medelvärdet är vanligast, och antalet större och mindre värden är ungefär samma – kurvan är symmetrisk. – Exempel: De flesta vuxna personer är runt medellängd, medan det finns få som är ovanligt långa eller ovanligt korta. En kurva över den vuxna befolkningens kropps­längd med kroppslängd på den liggande axeln och antal personer på den stående axeln skulle likna en normalfördelnings­kurva. Kullen eller bulan i mitten representerar de medel­långa. ”Svansarna” längst till vänster och höger representerar antalet mycket korta respektive mycket långa. Det finns inga vuxna som är tre meter, så om man lägger till slumpmässigt utvalda personer till underlaget för kurvan förändras den inte mycket. – Från början var kurvan en rent matema­tisk konstruktion, uttänkt av matematikern Carl Friedrich Gauss. Den visar sannolikheten för olika utfall i teoretiska experiment, som när man till exempel singlar slant många gånger. (Ju fler gånger man gör det, desto mer sannolikt att det blir ≈50 procent krona och ≈50 procent klave.) Det var först senare som normalfördelningskurvan fick användning i tillämpad statistik. – I boken Den svarta svanen (2012, The black swan, 2007) kritiserade Nassim Nicholas Taleb användningen av normalfördelningskurvan i analys och prognoser. Han påpekar att den inte speglar sådant som fördelningen av pengar. – Se också independently and identically distributed och ludiskt felslut. – På engelska: normal distri­bution curve, bell curve eller gaussian curve; ofta bara Gaussian.

[statistik] [ändrad 12 april 2020]

typvärde

det vanligaste värdet i ett statistiskt material. Skiljer sig ofta både från medelvärdet och medianen. – Påhittat exempel: Svenska kvinnor föder i genomsnitt 1,3 barn, medianen är ett barn, men typvärdet är två barn. Typvärdet är särskilt användbart när man analyserar sådant som inte kan anges i siffror, som könstillhörighet eller djurarter. – På engelska: mode.

[statistik] [ändrad 11 september 2019]

Zipfs lag

Diagram över antal förekomster av de vanligaste orden i engelska. Den snabbt fallande kurvan som senare planar ut illustrerar Zipfs lag.

säger att frekvensen av ett värde i en stor mängd data ofta står i proportion till värdets plats i rang­ordningen. – Det vanligaste värdet brukar vara ungefär dubbelt så vanligt som det näst vanligaste, ungefär tre gånger så vanligt som det värde som är nummer tre på listan, och så vidare. – Lagen är uppkallad efter språkvetaren George Kingsley Zipf (1902—1950, se Wikipedia), som upptäckte att den gäller för ordfrekvenser i stora textmassor. – Exempel: i modern engelska är the det vanligaste ordet, 6,9 procent av alla ord. Näst vanligast är of med 3,6 procent och tredje vanligast är and med 2,8 procent. Som synes följer för­del­ningen inte Zipfs lag exakt, men det påstod Zipf inte heller att den skulle göra. Hans lag beskriver en tendens. – Lagen kallas också för Zipf‑Mandel­brots lag efter Benoit Mandelbrot, som utvidgade prin­cipens tillämpning. Samma för­hål­lande mellan plats i rankinglistan och frekvens av före­komster har nämligen iakt­tagits för andra före­te­elser. Man har också upptäckt att förhållandet inte alltid är rakt (alltså inte följer mönstret 1/1, 1/2, 1/3…), utan att nämnaren ofta måste multi­pli­ce­ras med en konstant för att lagen ska gälla. Alltså till exempel 1/4, 1/8, 1/12… – Zipfs lag är en potenslag (power law). – Lagen har också tillämpats på analys av sociala nätverk. Enkelt uttryckt: de kontakter som vi har minst kontakt med är praktiskt taget värde­lösa. – Se också drakkung, långa svansen, svart svan och Pareto­prin­cipen.

[lagar] [statistik] [ändrad 25 februari 2018]