[onderzoek] Synthetische data: futuristische term met mooie beloftes

16 jun 2021 @ 08:00
Redactie MarketingTribune

Synthetische data zijn data die niet door mensen, maar door computers zijn gegenereerd en worden vaak gecreëerd aan de hand van algoritmes.

In het begin van de 19e eeuw ging men op zoek naar een alternatief voor natuurlijke vezels. Het was een poging om de productiekosten omlaag te brengen en zo textiel voor een breder publiek toegankelijk te maken. Zijde, bijvoorbeeld, was op dat moment enkel betaalbaar voor de elite, doordat de kosten van zowel de ruwe materialen als de productie ervan erg hoog waren. Halverwege dezelfde eeuw werd het eerste patent voor synthetische vezels realiteit toen een Zwitserse onderzoeker een kunstmatige variant van zijde ontdekte. Over de jaren heen werd dit doorontwikkeld tot de viscose die we nog steeds dagelijks tegenkomen.

Kunstmatig alternatief
Vergelijkbaar met hoe er voor zijde een kunstmatig alternatief werd gecreëerd, bestaat een dergelijk alternatief ook voor het belangrijkste goed van de 21e eeuw data, namelijk synthetische data. Synthetische data zijn data die niet door mensen, maar door computers zijn gegenereerd en worden vaak gecreëerd aan de hand van algoritmes. Om bruikbaar te zijn, is het namelijk belangrijk dat de synthetische data lijken op de data uit de echte wereld. Dit betekent dat de statistische eigenschappen van de nieuwe dataset gelijk moeten zijn aan die van de echte data, die ze moeten vervangen. Algoritmes zijn hier zeer geschikt voor, doordat zij onderlinge correlaties tussen variabelen goed weten na te bootsen.
Hoewel de term misschien wat futuristisch klinkt, zijn synthetische data al een tijd aanwezig en worden bijvoorbeeld gebruikt om zelfrijdende auto’s te trainen. De laatste jaren groeit de populariteit ook bij andere bedrijven. Zowel start-ups als grote technologiebedrijven zetten er op in. Het lost namelijk meerdere problemen - deels - op, zoals een gebrek aan data opvullen, eerlijkere systemen bouwen en werken met privacygevoelige data.

Een gebrek aan data opvullen
Het eerste voordeel van synthetische data is dat ze ontbrekende data kunnen vervangen, zowel wanneer data over een specifieke situatie ontbreken als wanneer er simpelweg te weinig data beschikbaar zijn. De eerstgenoemde situatie komt regelmatig voor. Soms missen immers data over scenario’s die nog niet hebben plaatsgevonden, zoals het op de markt brengen van een nieuw product. Op basis van bestaande data kan het lastig zijn naar dit soort situaties te extrapoleren. Hierin kunnen artificiële data uitkomst bieden.
Niet genoeg data hebben, komt waarschijnlijk nog vaker voor. Dit is een probleem waar veel data scientists tegenaan lopen bij het ontwikkelen van modellen. Om een algoritme goed te trainen en zo min mogelijk ruis op te vangen, zijn er veel data nodig. Daarbij geldt: hoe complexer het algoritme, hoe meer data er nodig zijn. Synthetische data bieden hier een gemakkelijke en snelle oplossing. Een neuraal netwerk leert de structuur van de data die je wel hebt en maakt nieuwe data aan die zich net als de echte data gedragen. Zo is een tekort aan data ineens geen probleem meer en kan elk algoritme getraind worden.

Eerlijkere systemen bouwen
Een belangrijk bijkomend voordeel is dat kunstmatige data ook problemen oplossen aan de ethische kant van AI. De laatste jaren zijn er steeds meer nieuwsartikelen te vinden over algoritmes die structureel bepaalde groepen benadelen. Vaak wordt het algoritme in zulke artikelen bestempeld als bevooroordeeld. Een algoritme is uit zichzelf echter niet bevooroordeeld. Het leert enkel relaties die zich al in de dataset bevinden. Dit maakt data het belangrijkste onderdeel van het probleem.
Hoewel ook synthetische data niet de ultieme oplossing zijn, bieden deze data de mogelijkheid om groepen die ondervertegenwoordigd zijn in een dataset vaker voor te laten komen door voor hen kunstmatig nieuwe data te creëren op basis van de data die wel beschikbaar zijn. Een voorbeeld hiervan is het inzetten van computergegenereerde gezichten, ook wel deep fakes genoemd, om de oververtegenwoordiging van blanke mensen in gezichtsherkenningdatasets tegen te gaan. Zo kunnen data iets eerlijker gemaakt worden.

Werken met privacygevoelige data
Misschien wel het grootste pluspunt aan werken met synthetische data is dat het volledig anoniem is en daarmee AVG-problemen vermijdt. Synthetische data zijn immers computergegeneerd en lijken op echte data, maar bevatten geen enkel spoor meer van de data die ze moeten vervangen. Dit is belangrijk, want het anonimiseren van een dataset haalt niet alle problemen rondom privacy weg. Uit onderzoek blijkt dat in 80% van de gevallen de eigenaar van een creditcard met slechts drie transacties kan worden herleid. Synthetische data hebben dit probleem niet. Sterker nog, synthetische data voldoen aan alle AVG-restricties en zijn daardoor makkelijk en snel om mee te werken. Zo kunnen data zonder problemen gedeeld worden met andere afdelingen in de organisatie.
Kortom, synthetische data openen een nieuwe wereld aan mogelijkheden voor iedereen die met data werkt. Tweehonderd jaar geleden was het nog nauwelijks in te denken dat er een breed beschikbaar, goedkoper alternatief voor zijde zou komen. Ondertussen is viscose niet meer weg te denken uit de wereld. Op een vergelijkbare manier zal de vraag naar en productie van synthetische data de komende jaren enkel toenemen. Mijn advies is daarom: lees je in en ontdek de mogelijkheden die synthetische data bieden.

Dit artikel is geschreven door Esther Lietaert Peerbolte, senior data science consultant bij EY VODW, en verscheen eerder in MarketingTribune 10, 2021.

AlgemeenNieuws Artsen zonder Grenzen schaalt...Nieuws HG komt naar je toe deze lenteNieuws DOSSIER MERKENBOUW Marketeers op...Nieuws Rijksmuseum en Heineken verlengen...Nieuws Campagne moet (vak)mensen naar...Nieuws DOSSIER MERKENBOUW Merk toch hoe...
B2BNieuws Tweede keynotespreker NMD24 bekend:...Nieuws Joris van Dijk van BoerenBed Ik klim...Nieuws Bestedingen digital advertising...Nieuws Beeckestijn start opleiding AI...Nieuws Martijn Delahaye van Afas Software:...Weblog [column] Jezelf als marketeer slim...
BureausNieuws Sunny Cars creërt Sunny Car-figuren Nieuws De marketingtransfers van week 16,...Nieuws Verzekeraar Zzuper en Indie schudden...Nieuws OrangeValley, MvH Media, AdResults...Weblog [column] OntmenselijkingNieuws [branded content] Crisp wil groter...
ContentmarketingNieuws Heineken lanceert ‘saaie telefoon’...Nieuws Ziekenhuis lanceert wervingscampagne...Nieuws Snickers en Noa Lang maken en vragen...Nieuws Videoserie De Impact vraagt aandacht...Nieuws Nieuwe campagne Toegift brengt...Nieuws Ambulance werft verpleegkundigen via...
DesignNieuws Dopper lanceert digital product...Nieuws Nieuwe huisstijl voor Opel-showroomsWeblog [column] Adidas: we wisten het nietNieuws Samsung speelt met werkelijkheid in...Nieuws KNVB en Nike presenteren Oranje...Nieuws The Drum over SXSW 2024
Food en RetailNieuws [onderzoek] 1 op 5 consumenten vindt...Weblog [column] Battle of the smartphonesNieuws Duitse automerken tegen inmenging P...Nieuws Al meer dan 500 kinderen melden zich...Nieuws Jan Beckers van SodaStream Benelux:...Weblog [column] Wayfinding in de winkel:...
MediaNieuws Odido en CPNB brengen gewild...Weblog Column Top 5-TikTok-trends:...Nieuws DPG lanceert nieuw mediamerk voor...Weblog [column] Top 5-TikTok-trends:...Weblog [column] BvA: Wees zuinig op...Weblog [column] Stijgende tv-tarieven en...
Online MarketingNieuws [DOSSIER SOCIAL MEDIA ] 15 vragen...Nieuws OrangeValley erkend als Great Place...Weblog [column] TikTok China beschermt de...Nieuws Energieleveranciers scoren gemiddeld...Nieuws KLM zet AI in voor 'reisinspiratie'...Nieuws Marktplaats: steeds meer...
SponsoringNieuws ING en Concertgebouworkest 35 jaar...Nieuws Heineken hoofdsponsor 10e editie...Nieuws Atradius shirtsponsor Nederlandse...Nieuws MediaMarkt nieuwe hoofdsponsor...Nieuws Partnership Herbalife met...Nieuws Duitse voetbalbond ruilt vanaf 2027...

Nieuwsbrief

Mis niets! Schrijf je nu in voor de gratis nieuwsbrief.
Inschrijven

Laatste reacties

Word abonnee en ontvang:

✔ 16 keer per jaar MarketingTribune Magazine
✔ Korting tot wel €100,- op events

Neem nu een abonnement

Meest gelezen

Laatste Nieuws

[DOSSIER SOCIAL MEDIA ] 15 vragen... 17-04-2024
OrangeValley erkend als Great Place... 11-04-2024
Energieleveranciers scoren gemiddeld... 04-04-2024
KLM zet AI in voor 'reisinspiratie'... 03-04-2024
Marktplaats: steeds meer... 02-04-2024
ACM: 'Travel Sustainable programma... 25-03-2024

MarketingTribune Events

28mei 2024

Retail Media Day
13jun 2024

NIMA Marketing Day
17sep 2024

CrossBorder Event
3okt 2024

CustomerFirst Congres
10okt 2024

Shopping Today
12nov 2024

Grand Prix Content Marketing
Toon alle events »

Whitepapers

MarketingTribune Online Marketing
MarketingTribune.nl/online bericht over de actuele stand van zaken over het online in contact komen met en verleiden van de klant, met specifieke aandacht voor onder meer e-commerce, online advertising en social media.
MarketingTribune: meer over marketing en merken

Redactioneel
Nieuws
Weblog

[onderzoek] Synthetische data: futuristische term met mooie beloftes

Nieuwsbrief

Laatste reacties

Word abonnee en ontvang:

Meest gelezen

MarketingTribune | Vacatures

Laatste Nieuws

MarketingTribune Events

Retail Media Day

NIMA Marketing Day

CrossBorder Event

CustomerFirst Congres

Shopping Today

Grand Prix Content Marketing

Whitepapers

MarketingTribune Online Marketing

BBP Media