sampling

tagning av stickprov (engelska samples):

  • – i it: mätning av en kon­ti­nu­er­lig signal (som musik) med jämna mellanrum; när det gäller in­spel­ning av musik tiotusentals gånger i sekunden. (Man digiti­serar ljudet.) Antalet mätningar per sekund kallas för samplingsfrekvens. Man utgår från att ingen betydelsefull informa­tion går för­lorad mellan mät­ningarna, förutsatt att de sker tillräckligt tätt. (Se Nyquists lag.) Sampling är en förutsättning för att analoga signaler ska kunna behandlas med digital teknik;
  •  – i statistik innebär sampling att man tar stickprov ur en större grupp och sedan utgår från att slut­satser om den undersökta gruppen också gäller för den större gruppen.

[informationsinsamling] [musik] [statistik] [ändrad 31 januari 2019]

Paretoprincipen

Paretodiagram som åskådliggör Pareto-principen. Den svarta linjen visar ackumulerat värde.
Paretodiagram som åskådliggör Pareto-principen. Den svarta linjen, som planar ut, visar ackumulerat värde.

(the Pareto principle)”20 procent av orsakerna står för 80 procent av effekterna.” – 20 procent av kunderna står för 80 procent av försäljningen, de rikaste 20 procenten av befolkningen äger 80 procent av alla pengar, 20 procent av problemen tar 80 procent av tiden att lösa. – Paretoprincipen är därför också känd som 80‑20‑regeln. Det är en iaktta­gelse som stämmer ungefär i många fall, inte en exakt lag. Paretoprincipen kan gälla i flera led: inom de 20 procenten står återigen 20 procent av orsakerna för 80 procent av effekterna: alltså fyra procent mot 96 procent. Och så vidare  – Ett diagram som visar fördelningen med orsakerna (i bred bemärkelse) på längd­axeln och effekterna på höjdaxeln kallas för Paretodiagram. Ett Paretodiagram som åskådliggör Paretoprincipen har en stor kropp i ena änden (80 procent av effekterna på höjdaxeln) medan större delen av diagram­met är en lång smal svans (20 procent av effekterna på höjdaxeln, men 80 procent av orsakerna på längdaxeln). – I företagsekonomi har principen använts som motive­ring för att satsa på de 20 pro­centen och strunta i resten. Detta har ifrågasatts – se den långa svansen. – Se också drakkung, potenslag, svart svan och Zipfs lag. – Läs också om DSDM. – Prin­cipen är uppkallad efter den italienska ekonomen och industria­listen Vilfredo Pareto (1848—1923, se Wikipedia).

[lagar] [statistik] [ändrad 6 maj 2020]

Trendalyzer

ett program för grafisk representation av data. Det utvecklades av Ola Rosling för stiftelsen Gapminder, som 2007 sålde Trendalyzer till Google. Google tillhandahåller det under namnet Data explorer (länk). Programmet är förinställt för att hantera fem variabler: x‑axel, y‑axel, bubblor i olika storlekar och färger samt en glidande tidsaxel. Programmet levereras med en uppsättning data om global utveckling, men användaren kan mata in egna data.

[data] [grafiskt användargränssnitt] [statistik] [ändrad 10 november 2018]

perturbation

metod att göra det svårt att knyta personuppgifter i en förteckning till bestämda personer genom att man kastar om uppgifterna på ett systematiskt sätt. Används vid statistisk analys av integritetskänsliga data. – Vanlig pseudonymisering, det vill säga att man tar bort namn och andra uppgifter som direkt kan knytas till en bestämd person, anses osäker. Det är nämligen enkelt att koppla anonymiserade data om en viss person till den personen om man har tillgång till det ursprungliga registret eller annan lämplig information. Perturbation innebär att man låter vissa uppgifter byta plats mellan personer på ett sätt som gör att den statistiska analysen ändå blir giltig. Man kan också ändra vissa mätvärden på ett systematiskt sätt som inte påverkar slutresultatet. Liknande metoder används också för att hemlighålla information i datakommunikation. – En mer allmän betydelse av engelska perturbation är störning, avvikelse från förväntat värde. – Läs också om datamaskering, k-anonymitet och kvasiidentifierare.

[personlig integritet] [personuppgifter] [statistik] [ändrad 31 mars 2020]

binning

minskning av antalet uppgifter i en data­mängd; sammanslagning av värden som ligger nära varandra. Uttrycket kommer av engelska bin – korg, behållare, soptunna – man lägger värden som ligger nära var­andra ”i samma korg”:

  1. – data binning innebär att värden som ligger nära varandra byts ut mot ett en­het­ligt värde, van­ligt­vis det centrala. Exempel: alla värden mellan 9,5 och 10,5 byts ut mot 10. Av­rund­ning kan alltså ses som en form av binning;
  2. – i digital bildbehandling: det att en grupp bildpunkter (pixlar) ersätts med en enda bild­punkt. 2⨯2 eller 3⨯3 bildpunkter kan till exempel er­sättas med en enda bildpunkt. Vanligt­vis blir det då ett medel­värde av de in­gående bildpunkternas färg­toner. Detta kan under­lätta bild­analys och göra bilden tyd­ligare, och det är nöd­vändigt om bilden ska för­minskas;
  3. – phone binning (skämtsamt): att hålla en kikare framför objek­tivet på en mobil­tele­fons kamera. Man an­vänder alltså kikaren som tele­objektiv;
  4. – to bin kan också betyda att kasta bort (”lägga i det runda arkivet”, the bin).

[analys] [bildbehandling] [kameror] [matematik] [ändrad 3 april 2020]

affinitetsanalys

(affinity analysis) – sökning efter statistiska sam­band i stora data­mäng­der. Alltså en typ av datautvinning. – Affi­­ni­tet är i mark­­nads­föring ett mått på hur mycket en mål­grupp är in­tres­se­rad av en pro­dukt eller tjänst. Om målgrup­pen är mer in­tres­se­rad av pro­dukten än genom­snittet av befolkningen är affiniteten hög. Hög affi­ni­tet kan alltså antas ge gott gensvar på reklamen. – Ordet affinitet an­vänds också i andra sam­man­hang med besläktade betydelser.

[analys] [marknadsföring] [statistik] [ändrad 29 januari 2018]

Gauss

  1. – en trojansk häst som upp­snappar lösen­ord och informa­tion om bankkonton. Upp­täcktes i augusti 2012. Den anses vara utvecklad för cyberkrigföring, liksom Duqu, Flame och Stuxnet. – Läs mer här;
  2. – ett programspråk för matematik och statistik – se aptech.com;
  3. – Gaussian curve, se normalfördelningskurva;
  4. – se gaussiskt filter;
  5. – se gaussisk oskärpa.

– Ordet: Efter Carl Friedrich Gauss (1777—1855, se Wikipedia), av många ansedd som historiens främsta mate­­ma­­tiker.

[bildbehandling] [programspråk] [skadeprogram] [statistik] [ändrad 1 juni 2019]

normalfördelningskurva

en kurva som beskriver den fördelning av värden som i statistisk teori anses mest sannolik. – Kurvan har formen av en kulle eller en kyrk­klocka och kallas därför på engelska för bell curve. De värden som ligger runt medelvärdet är vanligast, och antalet större och mindre värden är ungefär samma – kurvan är symmetrisk. – Exempel: De flesta vuxna personer är runt medellängd, medan det finns få som är ovanligt långa eller ovanligt korta. En kurva över den vuxna befolkningens kropps­längd med kroppslängd på den liggande axeln och antal personer på den stående axeln skulle likna en normalfördelnings­kurva. Kullen eller bulan i mitten representerar de medel­långa. ”Svansarna” längst till vänster och höger representerar antalet mycket korta respektive mycket långa. Det finns inga vuxna som är tre meter, så om man lägger till slumpmässigt utvalda personer till underlaget för kurvan förändras den inte mycket. – Från början var kurvan en rent matema­tisk konstruktion, uttänkt av matematikern Carl Friedrich Gauss. Den visar sannolikheten för olika utfall i teoretiska experiment, som när man till exempel singlar slant många gånger. (Ju fler gånger man gör det, desto mer sannolikt att det blir ≈50 procent krona och ≈50 procent klave.) Det var först senare som normalfördelningskurvan fick användning i tillämpad statistik. – I boken Den svarta svanen (2012, The black swan, 2007) kritiserade Nassim Nicholas Taleb användningen av normalfördelningskurvan i analys och prognoser. Han påpekar att den inte speglar sådant som fördelningen av pengar. – Se också independently and identically distributed och ludiskt felslut. – På engelska: normal distri­bution curve, bell curve eller gaussian curve; ofta bara Gaussian.

[statistik] [ändrad 12 april 2020]