ludiskt felslut

(the ludic fallacy) – [den felaktiga] tron att statistik över resultat av spel motsvarar sannolikheten för händelser i andra sammanhang. – Med resultat av spel menas resultat av slantsingling, tärningskast, roulette eller andra slumpspel där sannolikheten förväntas vara lika hög (eller åtminstone känd) för alla möjliga utfall. Ju längre man håller på i sådana slumpspel, desto mer sannolikt är det att det blir ungefär lika många av alla möjliga utfall. Singlar man slant tio gånger bör det bli krona ≈fem gånger och klave ≈fem gånger. Det är osannolikt (en chans på 1 024) att det blir krona tio gånger; tio chanser på 1 024 att det blir krona nio gånger och klave en gång. Och så vidare. Men sannolikheten för att det blir exakt fem kronor på tio kast är 252 på 1 024 (och följaktligen är det lika sannolikt att det blir klave exakt fem gånger). Detta åskådliggörs av normalfördelningskurvan. De mest sannolika utfallen ligger runt medelvärdet. – Det ludiska felslutet innebär att man tror att även händelser som inte är slumpspel fördelar sig på samma sätt – att de är independently and identically distributed. Huruvida det verkligen är så är en empirisk fråga i varje enskilt fall. – Benämningen ludisk / ludic kommer från det latinska ordet för spel – ludus. Uttrycket ludiskt felslut kommer från Nicholas Nassim Taleb.

[fel] [sannolikhet] [statistik] [ändrad 11 juli 2020]

datamaskering

(data masking) – utbyte av data i en databas eller applikation mot andra data i syfte att skydda data mot obehörig åtkomst. Detta görs i en kopia av databasen. Originalet finns kvar oförändrat. – Datamaskering ska göras utan att den maskerade databasen eller applikationen blir oanvändbar. Den ska fortfarande kunna användas för testning, programutveckling och annat som inte kräver tillgång till riktiga data, eventuellt också för statistisk analys. – För att man ska tala om datamaskering i strikt bemärkelse krävs att uppgifterna ändras och kastas om på ett systematiskt sätt, till exempel så att statistiska analyser fortfarande blir riktiga. (Se till exempel perturbation.) Att bara ta bort data eller ersätta dem med nollor eller XXX… är inte datamaskering i denna bemärkelse. – Kommersiella databashanterare har ofta inbyggda funktioner för datamaskering. – Språkligt: Direktöversättningen datamaskning är olämplig, eftersom maskning är något helt annat.

[databaser] [statistik] [31 mars 2020]

datamängd

(data set eller dataset) – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; datamängd kan då ses som synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data (datapunkter) om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [ändrad 11 juni 2020]

disaggregation

upplösning, uppdelning, uppbrytning, disaggregering – uppdelning av något i mindre delar. – Network disaggregation – nätverksdisaggregering – innebär att de olika funktionerna i ett nätverk separeras, så att de kan hanteras var för sig. Funktioner som tidigare tillsammans har ingått i ett integrerat paket kan efter disaggregering hanteras av olika operatörer och med utrustning från olika leverantörer. – I statistik är disaggregering en uppdelning av stora, övergripande värden i mindre värden på detaljnivå.

[nätverk] [statistik] [5 november 2019]

samband

  1. – det att två eller flera företeelser verkar höra ihop:
    • statistiskt samband: företeelserna förekommer samtidigt, varierar samtidigt eller följer på varandra, dock utan att några orsaker till detta är kända;
    • – orsakssamband, kausalt samband: det finns kända orsaker till att företeelserna förekommer tillsammans;
  2. – i främst militär och polisiär terminologi: se kontakt.

[elektronisk kommunikation] [statistik] [23 september 2019]

logistisk regression

en typ av sannolikhetsberäkning som ger svar på ifall det finns ett statistiskt samband mellan en variabel och en eller flera andra variabler. Den ena är responsvariabeln, som alltid är ja eller nej – det finns ett statistiskt samband eller det finns inget statistiskt samband. (På engelska: indicator variable.) De andra är förklarande variabler, som kan ha vilka positiva värden som helst. (På engelska: independent variables eller predictors.) – Exempel: finns det ett statistiskt samband mellan lungcancer och rökning? Responsvariabeln är, som alltid, ja eller nej. Förklarande variabler kan vara data om rökare och icke-rökare: till exempel ålder, kön, hur länge har personen rökt, hur mycket har personen rökt; har personen diagnosticerats med lungcancer. – På engelska: logistic regression. – Språkligt: Logistisk regression har inget att göra med logistik i betydelsen transporter och lagring: logistik är här ett ålderdomligt ord för matematiska beräkningar. – Mer i Wikipedia.

[sannolikhet] [statistik] [17 juni 2019]

bias

  1. – missvisande bild av något, orsakad av medvetna eller omedvetna förutfattade meningar; fördomar, partiskhet, vinkling;
  2. – i maskininlärning – tendens hos en algoritm som har utvecklats med maskininlärning att söka efter lösningar som liknar lösningarna på de de problem som algoritmen har tränats med. Men sådana kända lösningar behöver inte vara representativa för lösningarna till andra problem som är nya för algoritmen;
  3. – i statistik och annan vetenskaplig verksamhet: metodfel – systematiskt fel vid insamling och urval av data.

– Ordet bias används både på svenska och engelska.

[fel] [maskininlärning] [statistik] [29 april 2019]

selektion

– val, urval:

  1. – i programkörning: programmets val mellan två eller flera alternativ (hopp) vid en punkt i programkörningen; valet bestäms vid varje enskild körning av utfallet av tidigare beräkningar eller av andra omständigheter som programmet känner till:
  2. – i statistik: urval – den del av den totala relevanta populationen som undersöks, och som man sedan drar slutsatser om hela populationen från. För att man ska kunna dra korrekta slutsatser måste urvalet / selektionen vara representativt för helheten, annars talar man om urvalsfel.

– På engelska: selection.

[programkörning] [statistik] [24 september 2018]

inferens

  1. – i logik och psykologi: bedömning som görs delvis med ledning av sådant som är känt sedan tidigare, eller med ledning av sammanhanget. Kallas också för slutledning. – Exempel: dörren är låst, ingen svarar när du ringer på dörrklockan, bilen är borta – inferens / slutledning: ingen är hemma. Det är ingen logiskt nödvändig slutsats, men troligen rätt ändå. – I det dagliga livet gör vi liknande inferenser automatiskt många gånger varje dag. Det blir inte alltid rätt, men oftast. Inom artificiell intelligens används programmerad inferens för att göra slutledningar av kända data. Man talar om inference engines, inferensmaskiner. (Läs också om Cyc.) Det handlar då om statistisk inferens, alltså att dra generella slutsatser utifrån ett urval av data. – Skillnaden mot formellt logiska slutsatser är att formellt logiska slutsatser görs enbart utifrån premisser som är kända och givna i klartext;
  2. inferensattack – sätt för angripare att dra slutsatser om hemlig information genom att analysera information som inte är hemlig. Man använder tillgänglig information från en lägre sekretessnivå, eller utan sekretess, för att dra slutsatser om information på en högre sekretessnivå. Det kräver genomtänkta motåtgärder.

– På engelska: inference; inference attack.

[artificiell intelligens] [attacker] [logik] [psykologi] [statistik] [ändrad 7 september 2018]