data steward

dataansvarig, dataföreståndare – en som ansvarar för de data som en organisation har. – Ansvaret gäller att data är korrekta, aktuella, användbara och fullständiga. En data steward ska också se till att data som av något skäl inte bör finnas i organisationens system raderas. I arbetsuppgifterna ingår också att förbättra kvaliteten på data och att finna nya källor för inhämtning av data. Uppdraget kan gälla alla data i organisationen eller i en del av den. Jobbet sammanfaller delvis med data custodian.

[data] [yrken] [16 juli 2022]

data custodian

dataförvaltare – en som ansvarar för hur en organisation hanterar sina data. – Ansvaret gäller sådant som datalagring, dataöverföring, dataskydd, skydd av personuppgifter, backup och andra tekniska processer för hantering av data. Arbetsuppgiften kan delvis sammanfalla med data steward (dataansvarig). En data custodian ansvarar för hur data hanteras, medan en data steward ansvarar för data som sådana. Det finns vanligtvis bara en data custodian i en organisation, men det kan finnas flera data stewards, som är underordnade.

[data] [yrken] [16 juli 2022]

syntetiska data

datamängd som har tagits fram för att användas i maskininlärning, men som inte är ett underlag som hämtats ur verkliga förhållanden. – Man vill ha ett underlag som är bättre för syftet med maskininlärningen än vad data ur verkligheten skulle vara. Lämpliga data kan vara svåra eller olämpliga att få fram ur verkliga förhållanden. Syntetiska data kan också användas för att undvika algoritmisk snedvridning. – Ett exempel är hur man tränar styrsystem för självkörande bilar att undvika olyckor: det är omöjligt att skaffa ett stort antal videor av verkliga trafikolyckor eller hotande olyckor, tagna ur bilens perspektiv. För att träna systemet framställer man i stället datoranimeringar. När det gäller självkörande bilar är det viktigaste ju inte att man har ett representativt urval av olyckor, utan man vill träna systemet även på mycket sällsynta situationer. – Man kan också utgå från ”verkliga” data från ett mindre antal personer och använda dessa data i olika kombinationer på syntetiska personer som används för träning i maskininlärning. Man kan se detta som en variant av sampling. Det påminner också om vad som i statistik kallas för omvägning eller kalibrering (se scb.se/hitta…). – På engelska: synthetic data, ibland även: fake data.

[data] [maskininlärning] [statistik] [19 juni 2022]

purging

data purging – datarensning, datautrensning – systematiskt borttagande av inaktuella och temporära filer från ett it-system. – Syftet är dels att frigöra lagringsutrymme, dels att förhindra att föråldrade data av misstag används i beräkningar. – Föråldrade data, till exempel uppgifter om före detta anställda, kan också, om obehöriga kommer åt dem, vara användbara i attacker, och bör därför rensas ut.

[data] [it-säkerhet] [11 juni 2022]

fan

oriktig repetition av information i resultatet av sökning i databas. – Fans orsakas av ogenomtänkt konfiguration av databasen eller ogenomtänkt utformning av sökningen (frågan). – Begreppet fan (engelskt uttal) definierades först 1996 av Thomas M Connolly (länk) och Carolyn Begg (länk) i boken Database systems. Det är en av två connection traps: den andra kallas för chasm. Felet definierades i förhållande till databaser av typen entity‑relationship, men det uppträder även i andra sammanhang. – Något förenklat exempel: ett företag har anställda och avdelningar. I en databas finns en tabell med företagets alla anställda och en annan tabell med företagets alla avdelningar. Om företaget gör en olyckligt formulerad sökning (med en join) efter anställda kan resultatet bli att varje anställd räknas som anställd i var och en av avdelningarna. Sökningen ”vet” inte att varje anställd tillhör bara en avdelning, eller vilken avdelning det i så fall skulle vara. I stället ”tror” sökningen att den som är anställd på företaget tillhör alla företagets avdelningar. Antalet anställda multipliceras därför i resultatet av sökningen; varje namn förekommer flera gånger. I mer komplicerade fall kan felet vara svårt att upptäcka: man ser bara att resultatet av sökningen inte kan stämma. – Man talar om en cartesisk produkt (cartesian product). Det innebär att i stället för att varje anställd knyts till en, och bara en, avdelning (som i en tabell med två spalter), vilket är det riktiga, så knyts varje anställd till var och en av avdelningarna (som i en flerspaltig tabell med de anställda på x‑axeln och avdelningarna på y‑axeln, eller omvänt, och ett kryss i varje ruta). – Uttrycket fan kommer av fan out, som kan översättas med sprida ut [i solfjäderform]. – För att undvika fans bör man lägga upp databasen (eller sökningen) på ett bättre sätt:

  • – olämpligt: anställd–(av)–företag–(som har)–avdelningar;
  • – hellre: företag–(har)–avdelningar–(som har)–anställda.

– Exakt hur man bör göra beror på syftet med databasen. (Observera att en del förklaringar på nätet av chasms i själva verket beskriver fans.)

[databaser] [fel] [ändrad 4 juli 2022]

chasm

oönskat bortfall av information vid sökning i databas, orsakad av ogenomtänkt konfiguration av databasen eller ogenomtänkt utformning av sökningen (frågan). – Begreppet chasm definierades först 1996 av Thomas M Connolly (länk) och Carolyn Begg (länk) i boken Database systems. Det är en av två connection traps: den andra kallas för fan. Felet definierades i förhållande till databaser av typen entity‑relationship, men det kan tillämpas även på relationsdatabaser och stjärnscheman. – Ett något förenklat exempel: en skola vill räkna sina datorer. Den har en databas med en lista över klassrummen. I varje klassrum finns det, enligt databasen, noll, en eller flera datorer. Om skolan då gör en sökning som för varje klassrum räknar antalet datorer och adderar dem kan resultatet bli fel – vad händer till exempel med datorn som står i receptionen? Receptionen står nämligen inte med i listan över klassrum. Minst en dator som borde ha kommit med i resultatet av sökningen saknas därför. (Observera att receptionens dator mycket väl kan finnas med i skolans databas, men man hittar den inte om sökningen utgår från klassrummen.) Det är sådana bortfall som kallas för chasms, vilket i det här fallet kan översättas med luckor. I mer komplicerade fall kan felet vara svårt att upptäcka: man ser bara att resultatet av sökningen inte verkar stämma. – För att undvika chasms bör man lägga upp databasen (eller sökningen) på ett bättre sätt: skolan har datorer; för varje dator anges  ett klassrum eller en annan lokal. – I andra sammanhang kan chasm översättas med klyfta, bråddjup.

[databaser] [fel] [ändrad 2 maj 2022]

data literacy

datakompetens, dataläskunnighet; dataliteracitet – förmåga att läsa, förstå, utvärdera, skapa och förmedla data. – Observera att den engelska termen data literacy handlar om data (uppgifter) – inte om datorer som sådana. – Jämför med digital literacy.

[data] [ändrad 12 april 2022]

bredkolumndatabas

(wide-column database) – ett slags databas med möjlighet att allt eftersom lägga till kolumner (fält) som kan vara olika för varje rad (post) i databasen. – Det speciella med bredkolumndatabaser är att fält som saknar värde på en rad inte anges som tomma – de fälten existerar helt enkelt inte på den raden.  Varje rad i databasen kan alltså ha en egen följd av fält. – Bredkolumndatabaser räknas som NoSQL‑databaser. Det innebär att man inte kan göra sökningar i dem med SQL. (Man kan alltså inte ställa frågor, queries, med sammansatta sökvillkor, som i relationsdatabaser – som ”hitta alla Kirunabor som har en Volvo och är under 40”.) Däremot går det snabbt att söka i en enda kolumn. – Fördelen med bredkolumndatabaser är att de kan lagra mycket stora datamängder effektivt och med god sökbarhet. Men de lämpar sig alltså inte för strukturerade datamängder, och de kan vara svåra att underhålla. – Benämningen bredkolumndatabas betyder alltså inte att kolumnerna är bredare än vanligt, utan syftar på hela databasen. – Kallas på engelska också för wide-column stores.

[databaser] [15 mars 2022]