datamängd som har tagits fram för att användas i maskininlärning, men som inte är ett underlag som hämtats ur verkliga förhållanden. – Man vill ha ett underlag som är bättre för syftet med maskininlärningen än vad data ur verkligheten skulle vara. Lämpliga data kan vara svåra eller olämpliga att få fram ur verkliga förhållanden. Syntetiska data kan också användas för att undvika algoritmisk snedvridning. – Ett exempel är hur man tränar styrsystem för självkörande bilar att undvika olyckor: det är omöjligt att skaffa ett stort antal videor av verkliga trafikolyckor eller hotande olyckor, tagna ur bilens perspektiv. För att träna systemet framställer man i stället datoranimeringar. När det gäller självkörande bilar är det viktigaste ju inte att man har ett representativt urval av olyckor, utan man vill träna systemet även på mycket sällsynta situationer. – Man kan också utgå från ”verkliga” data från ett mindre antal personer och använda dessa data i olika kombinationer på syntetiska personer som används för träning i maskininlärning. Man kan se detta som en variant av sampling. Det påminner också om vad som i statistik kallas för omvägning eller kalibrering (se scb.se/hitta…). – På engelska: synthetic data, ibland även: fake data.
[data] [maskininlärning] [statistik] [19 juni 2022]