[onderzoek] Synthetische data: futuristische term met mooie beloftes

[onderzoek] Synthetische data: futuristische term met mooie beloftes
  • Online
  • 16 jun 2021 @ 08:00
  • Link
  • Redactie MarketingTribune
    Redactie MarketingTribune


  • OnderzoekMarketingBig data

Synthetische data zijn data die niet door mensen, maar door computers zijn gegenereerd en worden vaak gecreëerd aan de hand van algoritmes.

In het begin van de 19e eeuw ging men op zoek naar een alternatief voor natuurlijke vezels. Het was een poging om de productiekosten omlaag te brengen en zo textiel voor een breder publiek toegankelijk te maken. Zijde, bijvoorbeeld, was op dat moment enkel betaalbaar voor de elite, doordat de kosten van zowel de ruwe materialen als de productie ervan erg hoog waren. Halverwege dezelfde eeuw werd het eerste patent voor synthetische vezels realiteit toen een Zwitserse onderzoeker een kunstmatige variant van zijde ontdekte. Over de jaren heen werd dit doorontwikkeld tot de viscose die we nog steeds dagelijks tegenkomen.

Kunstmatig alternatief
Vergelijkbaar met hoe er voor zijde een kunstmatig alternatief werd gecreëerd, bestaat een dergelijk alternatief ook voor het belangrijkste goed van de 21e eeuw data, namelijk synthetische data. Synthetische data zijn data die niet door mensen, maar door computers zijn gegenereerd en worden vaak gecreëerd aan de hand van algoritmes. Om bruikbaar te zijn, is het namelijk belangrijk dat de synthetische data lijken op de data uit de echte wereld. Dit betekent dat de statistische eigenschappen van de nieuwe dataset gelijk moeten zijn aan die van de echte data, die ze moeten vervangen. Algoritmes zijn hier zeer geschikt voor, doordat zij onderlinge correlaties tussen variabelen goed weten na te bootsen.
Hoewel de term misschien wat futuristisch klinkt, zijn synthetische data al een tijd aanwezig en worden bijvoorbeeld gebruikt om zelfrijdende auto’s te trainen. De laatste jaren groeit de populariteit ook bij andere bedrijven. Zowel start-ups als grote technologiebedrijven zetten er op in. Het lost namelijk meerdere problemen - deels - op, zoals een gebrek aan data opvullen, eerlijkere systemen bouwen en werken met privacygevoelige data.

Een gebrek aan data opvullen
Het eerste voordeel van synthetische data is dat ze ontbrekende data kunnen vervangen, zowel wanneer data over een specifieke situatie ontbreken als wanneer er simpelweg te weinig data beschikbaar zijn. De eerstgenoemde situatie komt regelmatig voor. Soms missen immers data over scenario’s die nog niet hebben plaatsgevonden, zoals het op de markt brengen van een nieuw product. Op basis van bestaande data kan het lastig zijn naar dit soort situaties te extrapoleren. Hierin kunnen artificiële data uitkomst bieden.
Niet genoeg data hebben, komt waarschijnlijk nog vaker voor. Dit is een probleem waar veel data scientists tegenaan lopen bij het ontwikkelen van modellen. Om een algoritme goed te trainen en zo min mogelijk ruis op te vangen, zijn er veel data nodig. Daarbij geldt: hoe complexer het algoritme, hoe meer data er nodig zijn. Synthetische data bieden hier een gemakkelijke en snelle oplossing. Een neuraal netwerk leert de structuur van de data die je wel hebt en maakt nieuwe data aan die zich net als de echte data gedragen. Zo is een tekort aan data ineens geen probleem meer en kan elk algoritme getraind worden.

Eerlijkere systemen bouwen
Een belangrijk bijkomend voordeel is dat kunstmatige data ook problemen oplossen aan de ethische kant van AI. De laatste jaren zijn er steeds meer nieuwsartikelen te vinden over algoritmes die structureel bepaalde groepen benadelen. Vaak wordt het algoritme in zulke artikelen bestempeld als bevooroordeeld. Een algoritme is uit zichzelf echter niet bevooroordeeld. Het leert enkel relaties die zich al in de dataset bevinden. Dit maakt data het belangrijkste onderdeel van het probleem.
Hoewel ook synthetische data niet de ultieme oplossing zijn, bieden deze data de mogelijkheid om groepen die ondervertegenwoordigd zijn in een dataset vaker voor te laten komen door voor hen kunstmatig nieuwe data te creëren op basis van de data die wel beschikbaar zijn. Een voorbeeld hiervan is het inzetten van computergegenereerde gezichten, ook wel deep fakes genoemd, om de oververtegenwoordiging van blanke mensen in gezichtsherkenningdatasets tegen te gaan. Zo kunnen data iets eerlijker gemaakt worden.

Werken met privacygevoelige data
Misschien wel het grootste pluspunt aan werken met synthetische data is dat het volledig anoniem is en daarmee AVG-problemen vermijdt. Synthetische data zijn immers computergegeneerd en lijken op echte data, maar bevatten geen enkel spoor meer van de data die ze moeten vervangen. Dit is belangrijk, want het anonimiseren van een dataset haalt niet alle problemen rondom privacy weg. Uit onderzoek blijkt dat in 80% van de gevallen de eigenaar van een creditcard met slechts drie transacties kan worden herleid. Synthetische data hebben dit probleem niet. Sterker nog, synthetische data voldoen aan alle AVG-restricties en zijn daardoor makkelijk en snel om mee te werken. Zo kunnen data zonder problemen gedeeld worden met andere afdelingen in de organisatie.
Kortom, synthetische data openen een nieuwe wereld aan mogelijkheden voor iedereen die met data werkt. Tweehonderd jaar geleden was het nog nauwelijks in te denken dat er een breed beschikbaar, goedkoper alternatief voor zijde zou komen. Ondertussen is viscose niet meer weg te denken uit de wereld. Op een vergelijkbare manier zal de vraag naar en productie van synthetische data de komende jaren enkel toenemen. Mijn advies is daarom: lees je in en ontdek de mogelijkheden die synthetische data bieden.

Dit artikel is geschreven door Esther Lietaert Peerbolte, senior data science consultant bij EY VODW, en verscheen eerder in MarketingTribune 10, 2021.


Nieuwsbrief

  • Mis niets! Schrijf je nu in voor de gratis nieuwsbrief.
  • Inschrijven

Laatste reacties

Word abonnee en ontvang:

  • ✔ 16 keer per jaar MarketingTribune Magazine
  • ✔ Korting tot wel €100,- op events

  • MarketingTribune.nl/online bericht over de actuele stand van zaken over het online in contact komen met en verleiden van de klant, met specifieke aandacht voor onder meer e-commerce, online advertising en social media.
  • MarketingTribune: meer over marketing en merken