kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]

utstickare

(outlier) – i statistik: ett värde som kraftigt avviker från de andra i en datamängd. Avvikelsen kan bero på ett fel eller ha rimliga orsaker. – Exempel: om alla familjer i ett bostadsområde uppges ha en årsinkomst på under 500 000 kronor, utom en familj som tjänar tio gånger så mycket, kan det vara korrekta värden. Men om det står att alla tioåriga barn i området är under 160 centimeter långa, utom ett barn, som är tre meter, är det säkert fel. – I statistisk analys utesluter man ibland utstickande värden rutinmässigt. Bortsett från att de kan vara fel kan de påverka medelvärden på ett missvisande sätt. – Outlier detection, utstickardetektion eller avvikardetektion, är användning av metoder, ofta automatiska, för att upptäcka utstickare. – Direktöversättningen utliggare förekommer, men den bör av två skäl inte användas: dels låter det likt uteliggare, dels heter det inte att avvikande värden ligger ut – de sticker ut.

[statistik] [29 januari 2018]

irisdatamängden

(the iris flower data setFisher’s iris data set eller Anderson’s iris data set) – en datamängd som ofta används för testning av program för statistisk analys och klassificering. Det är en systematisk samling uppgifter om tre arter av blomman iris, insamlad och sammanställd på 1930‑talet av den amerikanska botanisten Edgar Anderson (se Wikipedia). Den brittiska biologen och statistikern Ronald Fisher (se Wikipedia) an­vände datamängden 1936 i en artikel om statistisk analys. Ända sedan dess har irisdatamängden använts i undervisning och testning, oftast utan minsta anknytning till botanik. – Irisdatamängden finns för ner­ladd­ning på denna länk (nere i februari 2019).

[analys] [statistik] [ändrad 1 februari 2019]

normalisering

  1. – normalization – om relationsdatabaser – att se till att en relationsdatabas är väl utformad. Den ska undvika dubblering av information, vara lätt att göra ändringar i (man ska bara behöva ändra på ett ställe) och lätt att göra sökningar i (man ska kunna förutse var information finns). – Ett krav är att varje tabell ska innehålla minst en nyckel, det vill säga ett värde som entydigt identifierar varje rad (till exempel personnummer i ett personregister): i varje tabell ska det alltså finnas minst en kolumn där samma värde inte får förekomma två gånger
  2. – när det gäller statistik är normalisering att göra värden jämförbara, till exempel att se till att allt material räknas om till samma måttenheter och att tidsperioder (till exempel räkenskapsår) sammanfaller. – En form av normalisering är formatanpassning (canonicalization).

[databaser] [statistik] [ändrad 4 september 2018]

median

i statistik: värdet i mitten – om man sorterar alla värden i ett statistiskt material i storleksordning så är medianen det värde som står i mitten. Om talserien innehåller ett jämnt antal värden är medianen medelvärdet av de två värdena i mitten. – Medianen är mest belysande när det gäller ojämnt fördelade värden, till exempel 1,1,2,2,9: medianen är 2. Detta kan säga mycket (särskilt i mycket större talserier), eftersom genomsnittet (2,5) dels inte ingår, dels förskjuts av ett enstaka utstickande värde (9). Ett praktiskt exempel är bedömning av inkomsterna i ett bostadsområde: om det finns 99 låginkomsttagare och en miljardär hamnar medelinkomsten i området på en nivå som inte motsvarar någons faktiska inkomst. Tar man i stället medianinkomsten får man ett mer representativt värde som inte påverkas av miljardärens inkomst. – Om man har värden som inte går att sortera i storleksordning kan man i stället ta typvärdet.

[statistik] [ändrad 11 september 2019]

baslinje

(baseline) – allmänt: en tänkt nivå som man utgår från när man mäter eller förändrar något. Vanligtvis utgår man, när man talar om baslinje, inte från värdet noll utan från värden som motsvarar ut­gångs­läget. Syftet är att kunna mäta förändringar:

  1. ursprunglig nivå, basnivå – utgångsvärden för en förändringsprocess: kvantitativ beskrivning av det som ska förändras sådant det är innan för­änd­ringen påbörjas;
  2. – motsvarande för olika slags försöksverksamhet, till exempel testning av läkemedel;
  3. – i systemutveckling även: etappmål – en på förhand definierad nivå i utvecklingsarbetet då man anses ha klarat av en del och kan gå vidare till nästa. Man har alltså nått baslinjen för nästa nivå;
  4. basår, basperiod – tidpunkt som man utgår från vid jämförelser;
  5. – i typografi: den tänkta linjen längs neder­kanten på bok­stäver som a, b, c, d. – Några bok­stäver som g och j har en del som hänger nedanför bas­linjen, ett under­häng;
  6. baseline budgetingbasbudgetering – budgetering som utgår från före­gående års budget med justering för inflationen (och eventuellt andra kända faktorer);
  7. grundprinciper (för engelska baseline) – ståndpunkter som man inte kan ge efter från;
  8. baseline document – utkast, underlag, avsett för förhandlingar;
  9. – se också triangulering;
  10. – i baseball: tänkt linje mellan två intilliggande baser; i tennis: den målade linje som är längst bort från nätet på vardera planhalvan.

[ekonomi] [språktips] [statistik] [testning] [typografi] [ändrad 10 augusti 2017]