data set

(eller dataset) – datamängd – en samling data som behandlas tillsammans för ett bestämt ändamål av ett datorprogram. I praktiken kan detta vara:

  • – en eller flera tabeller i databaser; data set kan då ses som en synonym till databas;
  • – när det gäller NoSQL‑databaser och ostrukturerade data kan data set / datamängd stå för vilka data som helst, till exempel ett eller flera textdokument: det viktiga är att dessa data behandlas tillsammans för ett bestämt ändamål, till exempel indexering av text för en sökmotor;
  • – i den terminologi som användes av IBMstordatorernas tid var en datamängd en samling data som hade formaterats på ett bestämt sätt för att kunna behandlas;
  • – i statistik: en ordnad samling data om en bestämd företeelse;
  • – i artificiell intelligens: en samling data som används för att träna program för maskininlärning och som har bedömts vara representativ för det som ska läras in;
  • data set är också en ålderdomlig engelsk term för modem.

[ai] [data] [datakommunikation] [statistik] [14 februari 2020]

strukturerade data

data som är ordnade på ett systematiskt sätt. Vanligtvis genom att uppgifterna ingår i en databas och är uppdelade i fält: varje fält är avsett för data av en viss typ, till exempel förnamn, efternamn, adress…  Syftet är att underlätta sökningar. – På engelska: structured data. – Se också strukturerad personuppgift.

[data] [8 januari 2020]

en enda källa till sanning

principen att information ska hanteras så att varje uppgift finns bara på ett ställe och bara kan ändras på det stället. Alla andra processer och funktioner som har behov av den uppgiften måste hämta den utan ändringar från den enda källan. Det kan göras med pekare. Principen en enda källa till sanning kan tillämpas på databaser, dokumentsamlingar och systemutveckling. – På engelska: single source of truth, SSOT.

[databaser] [systemutveckling] [2 oktober 2019]

Elasticsearch

en databashanterare avsedd för att möjliggöra snabba sökningar i stora datamängder. Det är en databashanterare av typen NoSQL, det vill säga att den inte är använder relationsdatabasmodellen. Den är inriktad på information i dokument, inte tabeller. – Elasticsearch utvecklades av Shay Banon (länk), först 2004 under namnet Compass. Ett grundligt omarbetat utförande kom 2010 med namnet Elasticsearch.– Elasticsearch kallas ibland för sökmotor, men det är alltså snarare en databashanterare avsedd för sökningar i stora datamängder, och informationen är bara tillgänglig för databasens ägare. Det kallas ibland för enterprise search engine – företagssökmotor. Det är inte meningen att vem som helst ska kunna söka i Elasticsearch-databaser. Elasticsearch är delvis skrivet i öppen källkod. – Se elastic.co.

[databaser] [sökningar] [16 augusti 2019]

funktionellt beroende

om databaser: det att värdet i ett fält med säkerhet kan förutsägas utifrån värdet i ett annat fält, eller utifrån en kombination av två eller flera fält. – Exempel: om databasen har ett fält för personnummer bestämmer det värdet i fältet namn. (Med reservation för komplikationer som kan uppstå vid namnbyte.) Fältet personnummer, i detta exempel, kallas för determinant, fältet namn kallas för dependent. Värdet i fältet namn kan inte med säkerhet användas för att hitta rätt personnummer. (Determinanter bestående av två eller flera fält kan behövas när man, till exempel, behöver skilja mellan Newark–New Jersey–folkmängd och Newark–Delaware–folkmängd. Både ortnamn och delstat ingår i determinanten.) – Funktionellt beroende är något som man inte kan konstatera med formella metoder, utan det kräver insikt i de faktiska förhållanden som avspeglas i databasen. (Det kan ju till exempel hända att inget namn förekommer mer än en gång i en given databas, och då skulle man kunna dra den felaktiga slutsatsen att personnummer är funktionellt beroende av namn. Men som bekant kan flera personer ha samma namn, men inte samma personnummer.) – Om funktionellt beroende leder till upprepning av samma par av uppgifter, rad efter rad, i en databas, tyder det på att databasen är upplagd på ett ogenomtänkt sätt. Det gäller i synnerhet för relationsdatabaser. I stället för att upprepa samma personnummer följt av samma namn på rad efter rad bör man i en relationsdatabas bryta ut tabellen personnummer–namn (med personnummer som primärnyckel) och vid behov hämta namnet från den utbrutna tabellen. – På engelska: functional dependency. – Förkortas ibland till fb eller fd.

[databaser] [4 augusti 2019]