Innovatie & Strategie

Dit is een bijdrage van SAS
Artificial Intelligence
synthetische data

Synthetische data helpt ontwikkeling van AI te versnellen en risico’s te verminderen

Maar wat is synthetische data?

9 mei 2022
Door: SAS , partner

Maar wat is synthetische data?

Vijf jaar nadat Gartner “Machine Learning” bovenaan de Hypecycle Emerging Technologies plaatste, hebben veel organisaties nog steeds moeite met het daadwerkelijk toepassen hiervan in hun operationele processen.

De adoptie van Machine Learning en kunstmatige intelligentie (AI) wordt zeker in publieke toepassingen belemmerd door een negatieve connotatie rond het gebruik van algoritmen. Het zou discriminerend zijn, moeilijk uitlegbaar en zelfs gevaarlijk door het zelflerende karakter. Het is daarom goed dat de Europese Commissie gewerkt heeft aan regelgeving voor AI, waarin begrippen als eerlijkheid, verantwoord gebruik en transparantie leidend zijn. Dit maakt het voor veel organisaties niet eenvoudiger om te starten met AI. Echter, om hier goed mee om te gaan, kan ook de technologie zelf haar bijdrage leveren. In deze blog bespreken we hoe synthetische data kan helpen het ontwikkelproces van AI te versnellen en risico’s op bijvoorbeeld datalekken te verminderen.

Wat is synthetische data?
Synthetische data is een vorm van data die volledig kunstmatig is geconstrueerd door slimme AI-algoritmen. We moeten dit niet verwarren met datamanipulatie. We kennen allemaal voorbeelden van foto’s of video die door een computer zijn bewerkt, maar toch als echt overkomen. Bij synthetische data wordt data volledig nieuw aangemaakt met de echte data alleen als voorbeeld. Een veelgebruikte methode hiervoor is een Generative Adversarial Networks (GAN), die zichzelf leert data aan te maken zodanig dat deze nauwelijks van de echte data zijn te onderscheiden. In dit proces wordt de echte data alleen gebruikt om de computer te leren hoe echte data eruitziet. Een voorbeeld hiervan zijn StyleGAN voor foto’s en Tabular GAN voor gestructureerde data, beide AI-algoritmen in SAS Visual Data Mining & Machine Learning voor het maken van synthetische data.

Eenvoudig aanmaken van synthetische data
Een veelbelovende AI-startup op dit gebied is Syntho.ai, dat zich richt op het snel een eenvoudig aanmaken van synthetische data. Bestaande gestructureerde bedrijfsdata wordt in het proces gebruikt om de modellen te trainen nieuwe data aan te maken. Dit kan zoveel data zijn als nodig is, omdat er geen directe koppeling is met de oorspronkelijke data. Juist deze toepassing van GANs is interessant in het kader van AI-ontwikkeling binnen stringente regelgeving. De Syntho applicatie kan op basis van losse datasets of zelfs een hele database synthetische data aanmaken, waarbij de interne statistische verbanden hetzelfde zijn. De individuele regels in de data zijn niet meer te herleiden naar de oorspronkelijke regels, maar de totale dataset heeft nog wel dezelfde eigenschappen en granulariteit als de oorspronkelijke. Bij klassiek anonimiseren gaan details verloren.

Neem een klantentabel als voorbeeld. Elke regel in de synthetische dataset is een fictieve (synthetische) klant met nieuwe waarden voor de kenmerken zoals leeftijd, geslacht en woonplaats. Deze klant is tot geen enkele originele klant terug te herleiden. De klant bestaat feitelijk niet. Het totale bestand heeft echter nog steeds dezelfde statistische eigenschappen als gemiddelde en spreiding van leeftijden, correlaties tussen variabelen en zelfs multivariate verbanden. Dit maakt de dataset in principe nog steeds geschikt voor het trainen van een Machine Learning algoritme voor bijvoorbeeld voorspelling van koopgedrag of kans op opzegging door klanten. Als we dat model vervolgens loslaten op de echte klantentabel krijgen we voorspellingen over koopgedrag of opzeggingen van de echte klanten terug. Bijkomend voordeel is dat onbeperkte hoeveelheid synthetische data kan worden aangemaakt.

Recente studie
In een recente studie heeft SAS de applicatie van Syntho.ai getest op het behoud van deze eigenschappen in een synthetische dataset. De resultaten van dit onderzoek, dat in samenwerking met de Nederlandse AI Coalitie is uitgevoerd, zijn 13 april jl. gepresenteerd op het jaarcongres van de NLAIC. In de blog van Syntho vind je een meer gedetailleerde beschrijving van dit onderzoek.  

De resultaten van dit onderzoek zijn positief. Kort samengevat heeft SAS een dataset ter beschikking gesteld aan Syntho.ai om te synthetiseren, waarbij een deel is achtergehouden voor eindcontrole. Op zowel de echte data als de synthetische zijn vervolgens in SAS Viya diverse algoritmen getraind, van klassieke regressie tot neurale netwerken, random forest en gradient boosting. De dataset bevatte gegevens van klanten van een telecommunicatiebedrijf, die in een bepaalde periode hun abonnement wel of niet hadden opgezegd. De ontwikkelde modellen proberen patronen in de data te ontdekken om klanten te classificeren of ze wel of niet opzeggen. Voor een eerlijke vergelijking zijn op beide datasets dezelfde standaardinstellingen van de algoritmen in SAS Viya toegepast. Op de achtergehouden testdata bleek de voorspelkracht van de modellen getraind met de synthetische data van dezelfde orde als die van de modellen getraind op de originele data. De voorspelkracht bleef behouden in de synthetische data.

Hertaining
Hoewel een op synthetische data getraind model in theorie direct bruikbaar is in een operationeel proces, is het soms aan te raden het model eerst nog te hertrainen op de echte data, mits er voldoende echte data beschikbaar is. Deze hertraining kan in SAS Viya volledig automatisch worden geregeld, zonder dat de echte data daarbij zichtbaar wordt en extra mensen toegang moeten krijgen. Alle gemaakte keuzes op de synthetische data zoals data transformaties, selectie van variabelen, keuze en instellingen van de algoritmen kunnen behouden blijven vanuit het ontwikkelproces. Toepassing van het nieuw getrainde model in het operationele proces is daarna identiek aan de traditionele werkwijze zonder synthetiseren. Hertraining maakt de toepassing wel beter uitlegbaar en voorkomt dat een organisatie niet kan aangegeven waarom iemand is uitgesloten voor een dienst of product, anders dan “op basis van synthetische data”. Dit zou een negatieve houding ten opzichte van AI alleen maar bevestigen.

De voordelen van synthetische data
Wat zijn nu de voordelen hiervan? Zolang de synthetische data gebaseerd wordt op echte data valt dit immers nog steeds onder de AVG. En als we uiteindelijk toch hertrainen op de echte data, waarom dan niet vanaf de start de echte data blijven gebruiken? De voordelen zitten vooral in de ontwikkelfase van de modellen. De synthetische data is niet meer terug te leiden op individuele personen. Na het synthetiseren kunnen data scientists en business analisten met de data werken zonder dat er een risico is op datalekken van de echte data. Inhuurkrachten of externe adviseurs kunnen ook eenvoudiger en sneller betrokken worden. Ook pilotprojecten kunnen eenvoudiger worden opgestart, waarbij slechts een beperkt aantal mensen toegang nodig hebben tot de echte data, alleen om het synthetiseren te initiëren. De resultaten van het gebruik van de synthetische data kunnen eenvoudiger worden gedeeld in presentaties en demonstraties en zelfs de dataset zelf kan onderling worden uitgewisseld. Tot slot kan dit ook helpen om in de ontwikkelfase onbevooroordeeld met de data aan de gang te gaan en modellen zonder bias te realiseren. Of deze voordelen opwegen tegen de extra handeling van het aanmaken van de synthetische data en het opnieuw trainen na afloop is per situatie te beoordelen. Daarbij moeten we ook beseffen dat de dataset als geheel nog steeds concurrentiegevoelige informatie kan bevatten over de populatie als geheel. De voorspelkracht blijft immers behouden. Ook in situaties waarbij juist de uitschieters in de originele data relevant zijn, is synthetiseren minder geschikt. Uitschieters worden hierbij immers juist vermeden.

Ontwikkeling van AI versnellen en risico’s verminderen
Synthetische data helpt de ontwikkeling van AI te versnellen en risico’s te verminderen. Machine Learning modellen kunnen worden ontwikkeld op synthetische data die is gecreëerd met behulp van echte data. De stappen in het ontwikkelproces zijn verder identiek. Door het model uiteindelijk te hertrainen op de echte data wordt hetzelfde resultaat verkregen in kortere tijd en met minder risico op datalekken. Dit laatste is vooral interessant bij gevoelige data, denk aan patiëntgegevens, financiële data en data over burgers. Niet voor niets is er juist vanuit deze werkvelden interesse in het toepassen van synthetische data.

De voordelen worden echter alleen behaald als het synthetiseren nauwelijks inspanning vergt en het gehele proces grotendeels automatisch, veilig en herhaalbaar kan worden ingeregeld. SAS Viya biedt hiervoor de functionaliteit conform de eisen van de AVG. Risico’s worden sterk verminderd en het ontwikkelproces van AI kan sterk worden verkort. Organisaties die twijfelen kunnen nu mogelijk wel de stap zetten om AI daadwerkelijk te gaan toepassen, ook in persoonsgevoelige situaties.

Meer op SAS Healthcare dag
Tijdens de SAS Healthcare dag op 17 mei geef ik een inkijkje in de werking van Advanced Analytics en Machine Learning. Ook geeft Syntho een presentatie over AI-software voor synthetische data. Bekijk het programma van de SAS Healthcare dag.

Dit is een bijdrage van: Edwin van Unen, Adviseur Analytics & AI bij SAS

Reactie toevoegen