fan

oriktig repetition av information i resultatet av sökning i databas. – Fans orsakas av ogenomtänkt konfiguration av databasen eller ogenomtänkt utformning av sökningen (frågan). – Begreppet fan (engelskt uttal) definierades först 1996 av Thomas M Connolly (länk) och Carolyn Begg (länk) i boken Database systems. Det är en av två connection traps: den andra kallas för chasm. Felet definierades i förhållande till databaser av typen entity‑relationship, men det uppträder även i andra sammanhang. – Något förenklat exempel: ett företag har anställda och avdelningar. I en databas finns en tabell med företagets alla anställda och en annan tabell med företagets alla avdelningar. Om företaget gör en olyckligt formulerad sökning (med en join) efter anställda kan resultatet bli att varje anställd räknas som anställd i var och en av avdelningarna. Sökningen ”vet” inte att varje anställd tillhör bara en avdelning, eller vilken avdelning det i så fall skulle vara. I stället ”tror” sökningen att den som är anställd på företaget tillhör alla företagets avdelningar. Antalet anställda multipliceras därför i resultatet av sökningen; varje namn förekommer flera gånger. I mer komplicerade fall kan felet vara svårt att upptäcka: man ser bara att resultatet av sökningen inte kan stämma. – Man talar om en cartesisk produkt (cartesian product). Det innebär att i stället för att varje anställd knyts till en, och bara en, avdelning (som i en tabell med två spalter), vilket är det riktiga, så knyts varje anställd till var och en av avdelningarna (som i en flerspaltig tabell med de anställda på x‑axeln och avdelningarna på y‑axeln, eller omvänt, och ett kryss i varje ruta). – Uttrycket fan kommer av fan out, som kan översättas med sprida ut [i solfjäderform]. – För att undvika fans bör man lägga upp databasen (eller sökningen) på ett bättre sätt: företaget har avdelningar; avdelningarna har anställda. Hur man bör göra beror på syftet med databasen. (Observera att den del förklaringar på nätet av chasms i själva verket beskriver fans.)

[databaser] [fel] [ändrad 2 maj 2022]

chasm

oönskat bortfall av information vid sökning i databas, orsakad av ogenomtänkt konfiguration av databasen eller ogenomtänkt utformning av sökningen (frågan). – Begreppet chasm definierades först 1996 av Thomas M Connolly (länk) och Carolyn Begg (länk) i boken Database systems. Det är en av två connection traps: den andra kallas för fan. Felet definierades i förhållande till databaser av typen entity‑relationship, men det kan tillämpas även på relationsdatabaser och stjärnscheman. – Ett något förenklat exempel: en skola vill räkna sina datorer. Den har en databas med en lista över klassrummen. I varje klassrum finns det, enligt databasen, noll, en eller flera datorer. Om skolan då gör en sökning som för varje klassrum räknar antalet datorer och adderar dem kan resultatet bli fel – vad händer till exempel med datorn som står i receptionen? Receptionen står nämligen inte med i listan över klassrum. Minst en dator som borde ha kommit med i resultatet av sökningen saknas därför. (Observera att receptionens dator mycket väl kan finnas med i skolans databas, men man hittar den inte om sökningen utgår från klassrummen.) Det är sådana bortfall som kallas för chasms, vilket i det här fallet kan översättas med luckor. I mer komplicerade fall kan felet vara svårt att upptäcka: man ser bara att resultatet av sökningen inte verkar stämma. – För att undvika chasms bör man lägga upp databasen (eller sökningen) på ett bättre sätt: skolan har datorer; för varje dator anges  ett klassrum eller en annan lokal. – I andra sammanhang kan chasm översättas med klyfta, bråddjup.

[databaser] [fel] [ändrad 2 maj 2022]

data literacy

datakompetens, dataläskunnighet; dataliteracitet – förmåga att läsa, förstå, utvärdera, skapa och förmedla data. – Observera att den engelska termen data literacy handlar om data (uppgifter) – inte om datorer som sådana. – Jämför med digital literacy.

[data] [ändrad 12 april 2022]

bredkolumndatabas

(wide-column database) – ett slags databas med möjlighet att allt eftersom lägga till kolumner (fält) som kan vara olika för varje rad (post) i databasen. – Det speciella med bredkolumndatabaser är att fält som saknar värde på en rad inte anges som tomma – de fälten existerar helt enkelt inte på den raden.  Varje rad i databasen kan alltså ha en egen följd av fält. – Bredkolumndatabaser räknas som NoSQL‑databaser. Det innebär att man inte kan göra sökningar i dem med SQL. (Man kan alltså inte ställa frågor, queries, med sammansatta sökvillkor, som i relationsdatabaser – som ”hitta alla Kirunabor som har en Volvo och är under 40”.) Däremot går det snabbt att söka i en enda kolumn. – Fördelen med bredkolumndatabaser är att de kan lagra mycket stora datamängder effektivt och med god sökbarhet. Men de lämpar sig alltså inte för strukturerade datamängder, och de kan vara svåra att underhålla. – Benämningen bredkolumndatabas betyder alltså inte att kolumnerna är bredare än vanligt, utan syftar på hela databasen. – Kallas på engelska också för wide-column stores.

[databaser] [15 mars 2022]

datarenrum

(data clean room) – en metod för att förse annonsörer på webben med anonymiserade data om besökare som klickar på deras annonser. – Datarenrum utvecklades i slutet av 2010‑talet efter att tredjepartskakor hade blivit kontroversiella eller förbjudna. (En tredjepartskaka placeras ut av ett annat företag än det som publicerar webbsidan.) Den europeiska dataskyddsförordningen (GDPR) förbjuder utplacering av tredjepartskakor utan medgivande av besökaren. Anledningen är att kakor är personuppgifter. – Datarenrum installeras av de företag som säljer annonserna. I datarenrum sammanställs och analyseras data om besökare som har klickat på många annonsörers annonser. Det går därför att mäta annonsernas effektivitet och att hitta mönster i besökarnas beteende. Men innan denna information lämnas ut till annonsörerna tas alla personuppgifter bort. Annonsörerna får alltså inte veta vilka besökare som har klickat på deras annonser. – Ett renrum (clean room) är ett rum med extremt ren, filtrerad luft, avsett för laboratoriearbete eller tillverkning av mikroelektronik.

[marknadsföring] [personuppgifter] [webbstatistik] [11 januari 2022]

data wrangling

dataknådning, databeredning – bearbetning av data i olika format för att de ska kunna behandlas och analyseras på ett enhetligt sätt. – I dataknådning ingår bland annat normalisering. – Kallas också för datapreparering. (To wrangle är att gräla, att slåss; att fösa djur.)

[data] [10 november 2021]