SPSS

en samling program för statistisk analys. Det kan bland annat användas för statistik, datautvinning och textanalys. – SPSS utvecklades 1968. Förkortningen stod då för Statistical package for the social sciences, men är nu en pseudoförkortning. Från 1975 marknadsfördes SPSS av ett företag med samma namn, men företaget köptes 2009 av IBM. Det marknadsförs nu som IBM SPSS Statistics – se IBM:s webbsidor.

[pseudoförkortningar] [statistik] [16 oktober 2020]

ludiskt felslut

(the ludic fallacy) – [den felaktiga] tron att statistik över resultat av slumpspel motsvarar sannolikheten för händelser i andra sammanhang. – Med resultat av slumpspel menas resultat av slantsingling, tärningskast, roulette eller andra spel där sannolikheten förväntas vara lika hög (eller åtminstone känd) för alla möjliga utfall. Ju längre man håller på i sådana spel, desto mer sannolikt är det att det blir ungefär lika många av alla möjliga utfall. Singlar man slant tio gånger bör det bli krona ≈fem gånger och klave ≈fem gånger. Det är osannolikt (en chans på 1 024) att det blir krona tio gånger; tio chanser på 1 024 att det blir krona nio gånger och klave en gång. Och så vidare. Men sannolikheten för att det blir exakt fem kronor på tio kast är 252 på 1 024 (och följaktligen är det lika sannolikt att det blir klave exakt fem gånger). Detta åskådliggörs av normalfördelningskurvan. De mest sannolika utfallen ligger runt mitten. – Det ludiska felslutet innebär att man tror att även händelser som inte är slumpspel fördelar sig på samma sätt – att de är independently and identically distributed. Huruvida det verkligen är så är en empirisk fråga i varje enskilt fall. – Benämningen ludisk / ludic kommer från det latinska ordet för spel – ludus. Uttrycket ludiskt felslut kommer från Nicholas Nassim Taleb.

[fel] [sannolikhet] [statistik] [ändrad 7 september 2020]

datamaskering

(data masking) – utbyte av data i en databas eller applikation mot andra data i syfte att skydda data mot obehörig åtkomst. Detta görs i en kopia av databasen. Originalet finns kvar oförändrat. – Datamaskering ska göras utan att den maskerade databasen eller applikationen blir oanvändbar. Den ska fortfarande kunna användas för testning, programutveckling och annat som inte kräver tillgång till riktiga data, eventuellt också för statistisk analys. – För att man ska tala om datamaskering i strikt bemärkelse krävs att uppgifterna ändras och kastas om på ett systematiskt sätt, till exempel så att statistiska analyser fortfarande blir riktiga. (Se till exempel perturbation.) Att bara ta bort data eller ersätta dem med nollor eller XXX… är inte datamaskering i denna bemärkelse. – Kommersiella databashanterare har ofta inbyggda funktioner för datamaskering. – Språkligt: Direktöversättningen datamaskning är olämplig, eftersom maskning är något helt annat.

[databaser] [statistik] [31 mars 2020]

datamängd

(data set eller dataset) – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; datamängd kan då ses som synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data (datapunkter) om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [ändrad 11 juni 2020]

disaggregation

upplösning, uppdelning, uppbrytning, disaggregering – uppdelning av något i mindre delar. – Network disaggregation – nätverksdisaggregering – innebär att de olika funktionerna i ett nätverk separeras, så att de kan hanteras var för sig. Funktioner som tidigare tillsammans har ingått i ett integrerat paket kan efter disaggregering hanteras av olika operatörer och med utrustning från olika leverantörer. – I statistik är disaggregering en uppdelning av stora, övergripande värden i mindre värden på detaljnivå.

[nätverk] [statistik] [5 november 2019]

samband

  1. – det att två eller flera företeelser verkar höra ihop:
    • statistiskt samband: företeelserna förekommer samtidigt, varierar samtidigt eller följer på varandra, dock utan att några orsaker till detta är kända;
    • – orsakssamband, kausalt samband: det finns kända orsaker till att företeelserna förekommer tillsammans;
  2. – i främst militär och polisiär terminologi: se kontakt.

[elektronisk kommunikation] [statistik] [23 september 2019]

logistisk regression

en typ av sannolikhetsberäkning som ger svar på ifall det finns ett statistiskt samband mellan en variabel och en eller flera andra variabler. Den ena är responsvariabeln, som alltid är ja eller nej – det finns ett statistiskt samband eller det finns inget statistiskt samband. (På engelska: indicator variable.) De andra är förklarande variabler, som kan ha vilka positiva värden som helst. (På engelska: independent variables eller predictors.) – Exempel: finns det ett statistiskt samband mellan lungcancer och rökning? Responsvariabeln är, som alltid, ja eller nej. Förklarande variabler kan vara data om rökare och icke-rökare: till exempel ålder, kön, hur länge har personen rökt, hur mycket har personen rökt; har personen diagnosticerats med lungcancer. – På engelska: logistic regression. – Språkligt: Logistisk regression har inget att göra med logistik i betydelsen transporter och lagring: logistik är här ett ålderdomligt ord för matematiska beräkningar. – Mer i Wikipedia.

[sannolikhet] [statistik] [17 juni 2019]

bias

  1. – missvisande bild av något, orsakad av medvetna eller omedvetna förutfattade meningar; fördomar, partiskhet, vinkling;
  2. – i maskininlärning – tendens hos en algoritm som har utvecklats med maskininlärning att söka efter lösningar som liknar lösningarna på de de problem som algoritmen har tränats med. Men sådana kända lösningar behöver inte vara representativa för lösningarna till andra problem som är nya för algoritmen;
  3. – i statistik och annan vetenskaplig verksamhet: metodfel – systematiskt fel vid insamling och urval av data.

– Ordet bias används både på svenska och engelska.

[fel] [maskininlärning] [statistik] [29 april 2019]

selektion

– val, urval:

  1. – i programkörning: programmets val mellan två eller flera alternativ (hopp) vid en punkt i programkörningen; valet bestäms vid varje enskild körning av utfallet av tidigare beräkningar eller av andra omständigheter som programmet känner till:
  2. – i statistik: urval – den del av den totala relevanta populationen som undersöks, och som man sedan drar slutsatser om hela populationen från. För att man ska kunna dra korrekta slutsatser måste urvalet / selektionen vara representativt för helheten, annars talar man om urvalsfel.

– På engelska: selection.

[programkörning] [statistik] [24 september 2018]