data set

(eller dataset) – datamängd – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; data set kan då ses som en synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan data set / datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [14 februari 2020]

disaggregation

upplösning, uppdelning, uppbrytning, disaggregering – uppdelning av något i mindre delar. – Network disaggregation – nätverksdisaggregering – innebär att de olika funktionerna i ett nätverk separeras, så att de kan hanteras var för sig. Funktioner som tidigare tillsammans har ingått i ett integrerat paket kan efter disaggregering hanteras av olika operatörer och med utrustning från olika leverantörer. – I statistik är disaggregering en uppdelning av stora, övergripande värden i mindre värden på detaljnivå.

[nätverk] [statistik] [5 november 2019]

samband

  1. – det att två eller flera företeelser verkar höra ihop:
    • statistiskt samband: företeelserna förekommer samtidigt, varierar samtidigt eller följer på varandra, dock utan att några orsaker till detta är kända;
    • – orsakssamband, kausalt samband: det finns kända orsaker till att företeelserna förekommer tillsammans;
  2. – i främst militär och polisiär terminologi: se kontakt.

[elektronisk kommunikation] [statistik] [23 september 2019]

logistisk regression

en typ av sannolikhetsberäkning som ger svar på ifall det finns ett statistiskt samband mellan en variabel och en eller flera andra variabler. Den ena är responsvariabeln, som alltid är ja eller nej – det finns ett statistiskt samband eller det finns inget statistiskt samband. (På engelska: indicator variable.) De andra är förklarande variabler, som kan ha vilka positiva värden som helst. (På engelska: independent variables eller predictors.) – Exempel: finns det ett statistiskt samband mellan lungcancer och rökning? Responsvariabeln är, som alltid, ja eller nej. Förklarande variabler kan vara data om rökare och icke-rökare: till exempel ålder, kön, hur länge har personen rökt, hur mycket har personen rökt; har personen diagnosticerats med lungcancer. – På engelska: logistic regression. – Språkligt: Logistisk regression har inget att göra med logistik i betydelsen transporter och lagring: logistik är här ett ålderdomligt ord för matematiska beräkningar. – Mer i Wikipedia.

[sannolikhet] [statistik] [17 juni 2019]

bias

  1. – missvisande bild av något, orsakad av medvetna eller omedvetna förutfattade meningar; fördomar, partiskhet, vinkling;
  2. – i maskininlärning – tendens hos en algoritm som har utvecklats med maskininlärning att söka efter lösningar som liknar lösningarna på de de problem som algoritmen har tränats med. Men sådana kända lösningar behöver inte vara representativa för lösningarna till andra problem som är nya för algoritmen;
  3. – i statistik och annan vetenskaplig verksamhet: metodfel – systematiskt fel vid insamling och urval av data.

– Ordet bias används både på svenska och engelska.

[fel] [maskininlärning] [statistik] [29 april 2019]

selektion

– val, urval:

  1. – i programkörning: programmets val mellan två eller flera alternativ (hopp) vid en punkt i programkörningen; valet bestäms vid varje enskild körning av utfallet av tidigare beräkningar eller av andra omständigheter som programmet känner till:
  2. – i statistik: urval – den del av den totala relevanta populationen som undersöks, och som man sedan drar slutsatser om hela populationen från. För att man ska kunna dra korrekta slutsatser måste urvalet / selektionen vara representativt för helheten, annars talar man om urvalsfel.

– På engelska: selection.

[programkörning] [statistik] [24 september 2018]

inferens

  1. – i logik och psykologi: bedömning som görs delvis med ledning av sådant som är känt sedan tidigare, eller med ledning av sammanhanget. Kallas också för slutledning. – Exempel: dörren är låst, ingen svarar när du ringer på dörrklockan, bilen är borta – inferens / slutledning: ingen är hemma. Det är ingen logiskt nödvändig slutsats, men troligen rätt ändå. – I det dagliga livet gör vi liknande inferenser automatiskt många gånger varje dag. Det blir inte alltid rätt, men oftast. Inom artificiell intelligens används programmerad inferens för att göra slutledningar av kända data. Man talar om inference engines, inferensmaskiner. (Läs också om Cyc.) Det handlar då om statistisk inferens, alltså att dra generella slutsatser utifrån ett urval av data. – Skillnaden mot formellt logiska slutsatser är att formellt logiska slutsatser görs enbart utifrån premisser som är kända och givna i klartext;
  2. inferensattack – sätt för angripare att dra slutsatser om hemlig information genom att analysera information som inte är hemlig. Man använder tillgänglig information från en lägre sekretessnivå, eller utan sekretess, för att dra slutsatser om information på en högre sekretessnivå. Det kräver genomtänkta motåtgärder.

– På engelska: inference; inference attack.

[artificiell intelligens] [attacker] [logik] [psykologi] [statistik] [ändrad 7 september 2018]

k-anonymitet

i statistik: mått på effektiviteten i pseudonymisering av data. – En förteckning av personuppgifter är k‑anonym om varje kombination av data i förteckningen förekommer minst k gånger. k står i varje konkret fall för en bestämd siffra. – Pseudonymisering används till exempel i statistisk analys av medicinska data. Innan vårdgivaren lämnar ut medicinska data för analys avlägsnas data som identifierar patienterna. Det är ofta uppenbart att det inte räcker med att ta bort uppgifter som direkt identifierar patienten, som namn och personnummer. En kombination av andra uppgifter, som var för sig inte är unika, kan räcka för att särskilja en person – se kvasiidentifierare och perturbation. Till exempel kanske kombinationen ålder, kön, yrke, bostadsort, antal barn. För att pseudonymiseringen ska bli effektiv måste man avlägsna så mycket information att varje kombination av egenskaper i förteckningen förekommer flera gånger – alltså passar in på flera personer. Man kan också generalisera egenskaper: i stället för att ange födelseår kan man ange födelsedecennium; i stället för bostadsort anger man län. Om varje kombination av egenskaper i tabellen passar på minst sju personer är tabellen 7‑anonymiserad, om varje kombination passar på minst elva personer är den 11‑anonymiserad. Och så vidare. – På engelska: k‑anonymity, k‑anonymization.

[personuppgifter] [statistik] [ändrad 10 november 2018]

kvasiidentifierare

i statistik: kombination av uppgifter som räcker för att identifiera en enda specifik person, men som inte är namn, personnummer eller liknande. Det är en sammanställning av attribut som passar på enbart en individ. Men var och en för sig räcker inte egenskaperna för att identifiera någon. – Exempel: 55‑årig sjuksköterska, gift, tre barn, bosatt i villa i namngiven kommun, ägare till en Subaru Forrester. Eventuellt kan termen kvasiidentifierare användas om information som identifierar ett fåtal personer ur ett stort antal. Se också k‑anonymitet och perturbation. – På engelska: quasi‑identifier.

[personuppgifter] [statistik] [ändrad 10 november 2018]