Management

Datamanagement
big data

Eisen aan verantwoord data verzamelen

Het verzamelen van kwalitatieve data is een reis die een transformatie vergt in het denken en doen.

© CC0 - Pixabay xresch
1 november 2019

Steeds meer bedrijven starten of zijn bezig met het ontwikkelen van AI-toepassingen. Op deze manier hopen ze bestaande kernprocessen te verbeteren of te versnellen en concurrentievoordeel op te bouwen. Dankzij AI kunnen fabrieken bijvoorbeeld sneller productiefouten herkennen en banken efficiënter administratieve taken uitvoeren of financiële voorspellingen doen. Om dergelijke AI-toepassingen te ontwikkelen vormt data een belangrijke fundering.
 
Hoewel data zelf niet zoveel waarde hebben, kunnen ze het in combinatie met voorspellende algoritmes enorm veel macht geven. Een voorspellingsmodel is erg eenvoudig op te schalen als het eenmaal werkt. Een goed werkend voorspellingsmodel zorgt voor een constante stroom aan feedback data, die je vervolgens kunt gebruiken om je model continu op te schalen en te verbeteren. Hoe meer feedback data je krijgt des te beter het model wordt, waardoor je steeds meer concurrentievoordeel kunt opbouwen. Organisaties kunnen dit realiseren door op grote schaal data te verrijken met menselijke kennis. Alleen op deze manier kunnen er datasets worden ontwikkeld die gestructureerd en gebalanceerd zijn.

Gestructureerde data

Met gestructureerd bedoelen we dat data consistent moeten worden geannoteerd met labels die de gegevens beschrijven, zodat ze eenvoudig door een computer kunnen worden gevonden en geïnterpreteerd. Hoe meer labels je toevoegt aan de data, des te meer opties je hebt om in de toekomst modellen voor specifieke oplossingen te trainen. Een foto van een kat kan eenvoudig worden gelabeld als ‘kat, of meer specifiek als ‘kat’, ‘dier’, ‘Siamees’ etc. Daarnaast moet een kwalitatieve dataset goed in balans zijn. Het hebben van duizend voorbeelden van katten en slechts één of twee andere dieren is alleen goed voor het herkennen van katten. De andere dieren zal het model niet herkennen. Kortom, met een onevenwichtige set die ‘bias’ bevat naar een specifieke groep mensen, kun je snel in de problemen komen.

Combineer data met domeinkennis

Voor bedrijven wordt het steeds eenvoudiger om een gestructureerde en goed uitgebalanceerde dataset te creëren door nieuwe technologieën. Toen ik nog studeerde aan de Universiteit moesten we onze eigen kunstmatige neuronen programmeren om een klein neuraal netwerk op te bouwen. Tegenwoordig kan iedereen de meest geavanceerde en krachtige AI-frameworks, zoals Tensorflow of PyTorch, gratis downloaden. Hiermee kun je een eigen model bouwen en trainen zonder al te veel codeerwerk. Hierdoor zijn er steeds minder dataspecialisten nodig en kunnen professionals, die geen dataspecialist zijn, in hun eigen domein een dataset ontwikkelen. Bovendien kunnen domeinspecialisten beter hun eigen data herkennen, waardoor de data kwaliteit beter worden en AI-modellen effectiever getraind kunnen worden op realistische scenario’s en de bijbehorende risico’s. Een dierenarts herkent bijvoorbeeld dieren beter dan een dataspecialist.

Ontwikkel een data-centrische cultuur

Om succesvol te zijn in machine learning zul je naast een goede dataset ook altijd een data-centrische cultuur moeten realiseren. Dit zorgt bijvoorbeeld voor dat men centraal labels definieert, zodat verschillende afdelingen hetzelfde hanteren en de data kunnen worden gecombineerd.

Een ander belangrijk aspect voor een betrouwbare dataset is het menselijke aspect. Medewerkers moeten begrijpen hoe AI-technologie wordt toegepast en dat AI een ontwikkeling is die langzaamaan onze samenleving binnentreedt. Vaak beseffen medewerkers niet altijd wat machine learning inhoudt, waardoor ze geen rekening houden met het toekomstige gebruik van data. Ook kan hun beeld van machine learning negatief zijn, denk bijvoorbeeld aan doemscenario’s van intelligente robots die de mensheid en de banenmotor bedreigen. Dit kan de innovatie en een verantwoorde ontwikkeling van AI binnen het bedrijf bemoeilijken. Bedrijven doen er daarom goed aan om medewerkers een workshop te laten volgen voordat ze starten met AI.

Hoewel een AI project staat of valt met kwalitatieve data, is het verstandig om eerst te testen of het AI-model levensvatbaar is. Pas dan kun je het model gaan opschalen, steeds meer data verzamelen en meer concurrentievoordeel opbouwen. Het ontwikkelen van een AI-toepassing  gaat dan ook niet over één nacht ijs. Bedrijven die willen starten met AI zullen in het achterhoofd moeten houden dat AI en het verzamelen van kwalitatieve data een reis is die een transformatie vergt in het denken en doen.

Reactie toevoegen