Trendalyzer

ett program för grafisk representation av data. Det utvecklades av Ola Rosling för stiftelsen Gapminder, som 2007 sålde Trendalyzer till Google. Google tillhandahåller det under namnet Data explorer (länk). Programmet är förinställt för att hantera fem variabler: x‑axel, y‑axel, bubblor i olika storlekar och färger samt en glidande tidsaxel. Programmet levereras med en uppsättning data om global utveckling, men användaren kan mata in egna data.

[data] [grafiskt användargränssnitt] [statistik] [ändrad 10 november 2018]

perturbation

metod att göra det svårt att knyta personuppgifter i en förteckning till bestämda personer genom att man kastar om uppgifterna på ett systematiskt sätt. Används vid statistisk analys av integritetskänsliga data. – Vanlig pseudonymisering, det vill säga att man tar bort namn och andra uppgifter som direkt kan knytas till en bestämd person, anses osäker. Det är nämligen enkelt att koppla anonymiserade data om en viss person till den personen om man har tillgång till det ursprungliga registret eller annan lämplig information. Perturbation innebär att man låter vissa uppgifter byta plats mellan personer på ett sätt som gör att den statistiska analysen ändå blir giltig. Man kan också ändra vissa mätvärden på ett systematiskt sätt som inte påverkar slutresultatet. Liknande metoder används också för att hemlighålla information i datakommunikation. – En mer allmän betydelse av engelska perturbation är störning, avvikelse från förväntat värde. – Läs också om k-anonymitet och kvasiidentifierare.

[personlig integritet] [personuppgifter] [statistik] [ändrad 15 februari 2018]

affinitetsanalys

(affinity analysis) – sökning efter statistiska sam­band i stora data­mäng­der. Alltså en typ av datautvinning. – Affi­­ni­tet är i mark­­nads­föring ett mått på hur mycket en mål­grupp är in­tres­se­rad av en pro­dukt eller tjänst. Om målgrup­pen är mer in­tres­se­rad av pro­dukten än genom­snittet av befolkningen är affiniteten hög. Hög affi­ni­tet kan alltså antas ge gott gensvar på reklamen. – Ordet affinitet an­vänds också i andra sam­man­hang med besläktade betydelser.

[analys] [marknadsföring] [statistik] [ändrad 29 januari 2018]

Gauss

  1. – en trojansk häst som upp­snappar lösen­ord och informa­tion om bankkonton. Upp­täcktes i augusti 2012. Den anses vara utvecklad för cyberkrigföring, liksom Duqu, Flame och Stuxnet. – Läs mer här;
  2. – ett programspråk för matematik och statistik – se aptech.com;
  3. – Gaussian curve, se normalfördelningskurva;
  4. – se gaussiskt filter;
  5. – se gaussisk oskärpa.

– Ordet: Efter Carl Friedrich Gauss (1777—1855, se Wikipedia), av många ansedd som historiens främsta mate­­ma­­tiker.

[bildbehandling] [programspråk] [skadeprogram] [statistik] [ändrad 1 juni 2019]

normalfördelningskurva

Bild av normalfördelningskurva.
Normalfördelnings- kurva. Antalet förekomster anges på höjden (y-axeln) och värdet från lågt till högt på x-axeln (liggande). Den raka linjen i mitten visar att värdet i mitten (till exempel medellängd) också är det vanligaste. Men så är det inte alltid.

kurva som beskriver den fördelning av värden som i statistik anses mest sannolik. – Kurvan har formen av en kulle eller en kyrk­klocka och kallas därför på engelska för bell curve. – Exempel: De flesta vuxna personer är runt medellängd, medan det finns få som är ovanligt långa eller ovanligt korta. En kurva över den vuxna befolk­ningens kropps­längd med kroppslängd på den liggande axeln och antal personer på den stående axeln skulle likna en normalfördelnings­kurva. Kullen eller bulan i mitten representerar de medel­långa. ”Svansarna” längst till vänster och höger representerar antalet mycket korta respektive mycket långa. – Från början var kurvan en rent mate­ma­tisk konstruktion, uttänkt av matematikern Carl Friedrich Gauss. Den visar sannolikheten för olika utfall i teoretiska experiment, som när man till exempel singlar slant många gånger. Det var först senare som den fick användning i tillämpad statistik. – I boken Den svarta svanen (2012, The black swan, 2007) kriti­se­rade Nassim Nicholas Taleb använd­ningen av normal­fördel­nings­kurvan i analys och prognoser. – Se också independently and identically distributed. – På engelska: normal distri­bution curve, bell curve eller gaussian curve; ofta bara Gaussian.

[statistik] [ändrad 1 juni 2019]

typvärde

det vanligaste värdet i ett statistiskt material. Skiljer sig ofta både från medelvärdet och medianen. – Påhittat exempel: Svenska kvinnor föder i genomsnitt 1,3 barn, medianen är ett barn, men typvärdet är två barn. Typvärdet är särskilt användbart när man analyserar sådant som inte kan anges i siffror, som könstillhörighet eller djurarter. – På engelska: mode.

[statistik] [ändrad 11 september 2019]

Zipfs lag

Diagram över antal förekomster av de vanligaste orden i engelska. Den snabbt fallande kurvan som senare planar ut illustrerar Zipfs lag.

säger att frekvensen av ett värde i en stor mängd data ofta står i proportion till värdets plats i rang­ordningen. – Det vanligaste värdet brukar vara ungefär dubbelt så vanligt som det näst vanligaste, ungefär tre gånger så vanligt som det värde som är nummer tre på listan, och så vidare. – Lagen är uppkallad efter språkvetaren George Kingsley Zipf (1902—1950, se Wikipedia), som upptäckte att den gäller för ordfrekvenser i stora textmassor. – Exempel: i modern engelska är the det vanligaste ordet, 6,9 procent av alla ord. Näst vanligast är of med 3,6 procent och tredje vanligast är and med 2,8 procent. Som synes följer för­del­ningen inte Zipfs lag exakt, men det påstod Zipf inte heller att den skulle göra. Hans lag beskriver en tendens. – Lagen kallas också för Zipf‑Mandel­brots lag efter Benoit Mandelbrot, som utvidgade prin­cipens tillämpning. Samma för­hål­lande mellan plats i ranking­listan och frekvens av före­komster har nämligen iakt­tagits för andra före­te­elser. Man har också upptäckt att förhållandet inte alltid är rakt (alltså inte följer mönstret 1/1, 1/2, 1/3…), utan att nämnaren ofta måste multi­pli­ce­ras med en konstant för att lagen ska gälla. Alltså till exempel 1/4, 1/8, 1/12… – Zipfs lag är en potenslag (power law). – Lagen har också tillämpats på analys av sociala nätverk. Enkelt uttryckt: de kontakter som vi har minst kontakt med är praktiskt taget värde­lösa. – Se också drakkung, långa svansen, svart svan och Pareto­prin­cipen.

[lagar] [statistik] [ändrad 25 februari 2018]