datamaskering

(data masking) – utbyte av data i en databas eller applikation mot andra data i syfte att skydda data mot obehörig åtkomst. – Datamaskering görs i en kopia av databasen. Originalet finns kvar oförändrat. – Datamaskering ska göras så att den maskerade databasen eller applikationen fortfarande är användbar. Den ska fortfarande kunna användas för testning, programutveckling och annat som inte kräver tillgång till riktiga data, eventuellt också för statistisk analys. – För att man ska tala om datamaskering i strikt bemärkelse krävs att uppgifterna ändras och kastas om på ett systematiskt sätt, till exempel så att statistiska analyser fortfarande blir riktiga. (Se till exempel perturbation.) Att bara ta bort data eller ersätta dem med nollor eller XXX… är inte datamaskering i denna bemärkelse. – Kommersiella databashanterare har ofta inbyggda funktioner för datamaskering. – Språkligt: Direktöversättningen datamaskning är olämplig, eftersom maskning är något helt annat.

[databaser] [statistik] [31 mars 2020]

bubbelsortering

en enkel men ofta tidskrävande metod för att sortera. – Bubbelsortering kan användas för att sortera tal i nummerordning, ord i bokstavsordning eller för annan sortering i en fastställd ordning (linjär ordning). – Bubbelsortering går till så att ett program går igenom talen (eller bokstäverna) i den ordning de är givna, från början till slut, två intilliggande tal i taget. De två första talen jämförs, och om det andra talet är lägre än det första låter programmet dem byta plats. Sedan jämför programmet det andra talet med det tredje talet på samma sätt, och så vidare tills programmet kommer till slutet av talserien. Då börjar proceduren om från början. Detta upprepas till programmet kan gå igenom hela talserien utan att göra en enda omflyttning. Då är talen ordnade i storleksordning (eller orden i bokstavsordning) och programmet avslutas. Exempel:

41352 > 14352 > 13452 > 13425 > (ny genomgång:) 13425 > 13245 > 12345> (slutliga genomgången:) 12345.

– När man ska sortera stora mängder är bubbelsortering tidskrävande jämfört med andra metoder, och det används nästan aldrig i praktiken. En nackdel är att programmet inte vet när mängden är sorterad, utan upptäcker det först när det kan gå igenom hela mängden utan att ändra något. Även om programmet bara behöver göra en enda omflyttning måste det ändå gå igenom hela talserien två gånger. – Vad som ofta gör bubbelsortering ineffektivt är att höga tal snabbt rör sig bakåt (alltså till sin rätta plats) i mängden, medan låga tal rör sig långsamt framåt – ett steg per genomgång. Höga tal tidigt i den ursprungliga talserien kallas därför för kaniner, låga tal långt bak i serien kallas för sköldpaddor. Ett enda lågt tal långt bak i den ursprungliga talserien kan göra att programkörningen tar många gånger längre tid än vad den annars skulle göra. – På engelska: bubble sort. – Benämningen syftar på att låga tal ”bubblar” upp till sin rätta plats. – Läs mer i Wikipedia.

[data] [ändrad 2 april 2020]

datamängd

(data set eller dataset) – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; datamängd kan då ses som synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data (datapunkter) om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [ändrad 11 juni 2020]

strukturerade data

data som är ordnade på ett systematiskt sätt. Vanligtvis genom att uppgifterna ingår i en databas och är uppdelade i fält: varje fält är avsett för data av en viss typ, till exempel förnamn, efternamn, adress…  Syftet är att underlätta sökningar. – På engelska: structured data. – Se också strukturerad personuppgift.

[data] [8 januari 2020]

en enda källa till sanning

principen att information ska hanteras så att varje uppgift finns bara på ett ställe och bara kan ändras på det stället. – En enda källa till sanning innebär att alla processer och funktioner som har behov av den uppgiften måste hämta den utan ändringar från den enda källan. Det kan göras med pekare. Principen en enda källa till sanning kan tillämpas på databaser, dokumentsamlingar och systemutveckling. – På engelska: single source of truth, SSOT.

[databaser] [systemutveckling] [ändrad 1 november 2021]

Elasticsearch

en databashanterare avsedd för att möjliggöra snabba sökningar i stora datamängder. – Elastic search är en databashanterare av typen NoSQL, det vill säga att den inte är använder relationsdatabasmodellen. Den är inriktad på information i dokument, inte tabeller. – Elasticsearch utvecklades av Shay Banon (länk), först 2004 under namnet Compass. Ett grundligt omarbetat utförande kom 2010 med namnet Elasticsearch.– Elasticsearch kallas ibland för sökmotor, men det är alltså snarare en databashanterare avsedd för sökningar i stora datamängder, och informationen är bara tillgänglig för databasens ägare. Det kallas ibland för enterprise search engine – företagssökmotor. Det är inte meningen att vem som helst ska kunna söka i Elasticsearch-databaser. Elasticsearch är delvis skrivet i öppen källkod. – Se elastic.co.

[databaser] [sökningar] [16 augusti 2019]

funktionellt beroende

om databaser: det att värdet i ett fält med säkerhet kan förutsägas utifrån värdet i ett annat fält, eller utifrån en kombination av två eller flera fält. – Exempel: om databasen har ett fält för personnummer bestämmer det värdet i fältet namn. (Med reservation för komplikationer som kan uppstå vid namnbyte.) Fältet personnummer, i detta exempel, kallas för determinant, fältet namn kallas för dependent. Värdet i fältet namn kan inte med säkerhet användas för att hitta rätt personnummer. (Determinanter bestående av två eller flera fält kan behövas när man, till exempel, behöver skilja mellan Newark–New Jersey–folkmängd och Newark–Delaware–folkmängd. Både ortnamn och delstat ingår i determinanten.) – Funktionellt beroende är något som man inte kan konstatera med formella metoder, utan det kräver insikt i de faktiska förhållanden som avspeglas i databasen. (Det kan ju till exempel hända att inget namn förekommer mer än en gång i en given databas, och då skulle man kunna dra den felaktiga slutsatsen att personnummer är funktionellt beroende av namn. Men som bekant kan flera personer ha samma namn, men inte samma personnummer.) – Om funktionellt beroende leder till upprepning av samma par av uppgifter, rad efter rad, i en databas, tyder det på att databasen är upplagd på ett ogenomtänkt sätt. Det gäller i synnerhet för relationsdatabaser. I stället för att upprepa samma personnummer följt av samma namn på rad efter rad bör man i en relationsdatabas bryta ut tabellen personnummer–namn (med personnummer som primärnyckel) och vid behov hämta namnet från den utbrutna tabellen. – På engelska: functional dependency. – Förkortas ibland till fb eller fd.

[databaser] [4 augusti 2019]