syntetiska data

datamängd som har tagits fram för att användas i maskininlärning, men som inte är ett underlag som hämtats ur verkliga förhållanden. – Man vill ha ett underlag som är bättre för syftet med maskininlärningen än vad data ur verkligheten skulle vara. Lämpliga data kan vara svåra eller olämpliga att få fram ur verkliga förhållanden. Syntetiska data kan också användas för att undvika algoritmisk snedvridning. – Ett exempel är hur man tränar styrsystem för självkörande bilar att undvika olyckor: det är omöjligt att skaffa ett stort antal videor av verkliga trafikolyckor eller hotande olyckor, tagna ur bilens perspektiv. För att träna systemet framställer man i stället datoranimeringar. När det gäller självkörande bilar är det viktigaste ju inte att man har ett representativt urval av olyckor, utan man vill träna systemet även på mycket sällsynta situationer. – Man kan också utgå från ”verkliga” data från ett mindre antal personer och använda dessa data i olika kombinationer på syntetiska personer som används för träning i maskininlärning. Man kan se detta som en variant av sampling. Det påminner också om vad som i statistik kallas för omvägning eller kalibrering (se scb.se/hitta…). – På engelska: synthetic data, ibland även: fake data.

[data] [maskininlärning] [statistik] [19 juni 2022]

Lévyvandring

ett rörelsemönster med många korta, slumpmässiga rörelser och enstaka längre förflyttningar. – Det har visats att många varelser, inklusive människor, rör sig i Lévyvandringar när de söker efter föda. De söker alltså igenom ett mindre område noggrant, men inte efter något tydligt mönster, och flyttar sedan (om de inte hittar något) till ett annat område en bit bort och börjar söka där. – På engelska: Lévy walk. – Statistiskt talar man också om Lévydistribution, alltså ett stort antal små värden och ett fåtal stora värden. – Uppkallat efter den franska matematikern Paul Lévy (1886–1971).

[statistik] [2 februari 2022]

ludiskt felslut

(the ludic fallacy) – [den felaktiga] tron att statistik över resultat av slumpspel motsvarar sannolikheten för händelser i andra sammanhang. – Med resultat av slumpspel menas resultat av slantsingling, tärningskast, roulette eller andra spel där sannolikheten förväntas vara lika hög (eller åtminstone känd) för alla möjliga utfall. Ju längre man håller på i sådana spel, desto mer sannolikt är det att det blir ungefär lika många av alla möjliga utfall. Singlar man slant tio gånger bör det bli krona ≈fem gånger och klave ≈fem gånger. Det är osannolikt (en chans på 1 024) att det blir krona tio gånger; tio chanser på 1 024 att det blir krona nio gånger och klave en gång. Och så vidare. Men sannolikheten för att det blir exakt fem kronor på tio kast är 252 på 1 024 (och följaktligen är det lika sannolikt att det blir klave exakt fem gånger). Detta åskådliggörs av normalfördelningskurvan. De mest sannolika utfallen ligger runt mitten. – Det ludiska felslutet innebär att man tror att även händelser som inte är slumpspel fördelar sig på samma sätt – att de är independently and identically distributed. Huruvida det verkligen är så är en empirisk fråga i varje enskilt fall. – Benämningen ludisk / ludic kommer från det latinska ordet för spel – ludus. Uttrycket ludiskt felslut kommer från Nicholas Nassim Taleb.

[fel] [sannolikhet] [statistik] [ändrad 7 september 2020]

datamaskering

(data masking) – utbyte av data i en databas eller applikation mot andra data i syfte att skydda data mot obehörig åtkomst. – Datamaskering görs i en kopia av databasen. Originalet finns kvar oförändrat. – Datamaskering ska göras så att den maskerade databasen eller applikationen fortfarande är användbar. Den ska fortfarande kunna användas för testning, programutveckling och annat som inte kräver tillgång till riktiga data, eventuellt också för statistisk analys. – För att man ska tala om datamaskering i strikt bemärkelse krävs att uppgifterna ändras och kastas om på ett systematiskt sätt, till exempel så att statistiska analyser fortfarande blir riktiga. (Se till exempel perturbation.) Att bara ta bort data eller ersätta dem med nollor eller XXX… är inte datamaskering i denna bemärkelse. – Kommersiella databashanterare har ofta inbyggda funktioner för datamaskering. – Språkligt: Direktöversättningen datamaskning är olämplig, eftersom maskning är något helt annat.

[databaser] [statistik] [31 mars 2020]

datamängd

(data set eller dataset) – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; datamängd kan då ses som synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data (datapunkter) om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [ändrad 11 juni 2020]

disaggregation

upplösning, uppdelning, uppbrytning, disaggregering – uppdelning av något i mindre delar. – Network disaggregation – nätverksdisaggregering – innebär att de olika funktionerna i ett nätverk separeras, så att de kan hanteras var för sig. Funktioner som tidigare tillsammans har ingått i ett integrerat paket kan efter disaggregering hanteras av olika operatörer och med utrustning från olika leverantörer. – I statistik är disaggregering en uppdelning av stora, övergripande värden i mindre värden på detaljnivå.

[nätverk] [statistik] [5 november 2019]

samband

  1. – det att två eller flera företeelser verkar höra ihop:
    • statistiskt samband: företeelserna förekommer samtidigt, varierar samtidigt eller följer på varandra, dock utan att några orsaker till detta är kända;
    • – orsakssamband, kausalt samband: det finns kända orsaker till att företeelserna förekommer tillsammans;
  2. – i främst militär och polisiär terminologi: se kontakt.

[elektronisk kommunikation] [statistik] [23 september 2019]

logistisk regression

en typ av sannolikhetsberäkning som ger svar på ifall det finns ett statistiskt samband mellan en variabel och en eller flera andra variabler. Den ena är responsvariabeln, som alltid är ja eller nej – det finns ett statistiskt samband eller det finns inte något statistiskt samband. (På engelska: indicator variable.) De andra är förklarande variabler, som kan ha vilka positiva värden som helst. (På engelska: independent variables eller predictors.) – Exempel: finns det ett statistiskt samband mellan lungcancer och rökning? Responsvariabeln är, som alltid, ja eller nej. Förklarande variabler kan vara data om rökare och icke-rökare: till exempel ålder, kön, hur länge har personen rökt, hur mycket har personen rökt; har personen diagnosticerats med lungcancer. – På engelska: logistic regression. – Språkligt: Logistisk regression har inget att göra med logistik i betydelsen transporter och lagring: logistik är här ett ålderdomligt ord för matematiska beräkningar. – Mer i Wikipedia.

[sannolikhet] [statistik] [17 juni 2019]