Zo komt machine learning los van gigantische datasets en webreuzen

Succesvolle toepassing van machine learning hoeft niet afhankelijk te zijn van enorme datasets. Een andere aanpak, voorgesteld door AI-pionier Andrew Ng, biedt verschillende voordelen. De technologie komt bijvoorbeeld binnen bereik van organisaties die minder groot en kapitaalkrachtig zijn dan de handvol webgiganten die nu vooral vruchten plukken van machine learning. Bovendien hoeft Ng's nieuwe aanpak ook niet zo veel energie te kosten.

Thijs Doorenbosch is freelance journalist en tekstschrijver. Hij was meer dan dertig jaar vaste redacteur bij AG Connect (voorheen AutomatiseringGids) Meer van deze auteur

communicatie big data — © CC BY 2.0 - Flickr.com

© CC BY 2.0 - Flickr.com

Het bouwen van modellen op gigantische datasets komt grappig genoeg ook van (onder meer) Andrew Ng. Sinds 2015 zette hij onder meer bij Google Brain en later bij Baidu de strategie op om grote universele neurale netwerken te bouwen die werden getraind op zo veel mogelijk data. Het gevolg van die strategie is dat eigenlijk alleen een handvol grote bedrijven in staat is om dergelijke monolithische systemen te onderhouden en te exploiteren. De Amerikaanse internetreus Google en de Chinese tegenhanger Baidu zijn praktijkvoorbeelden daarvan.

Wel een voorwaarde

Tijdens een sessie in de GPU Technology Conference van chipmaker Nvidia kwam Ng echter met een idee om machine learning veel toegankelijker te maken door "meer te doen met minder", signaleerde The Register. De voorwaarde is wel dat bijvoorbeeld ziekenhuizen, scholen en fabrieken, die kunnen profiteren van specifieke machinelearningmodellen, gaan samenwerken aan het verzamelen van use cases.

"Ik heb voorbeelden gezien waarin fabrieken maar 50 afbeeldingen hadden voor de ontwikkeling van een inspectiesysteem op basis van computer vision om kapotte onderdelen te detecteren." "De enige manier voor de AI-gemeenschap om dit soort grote systemen te bouwen is om een verticaal platform op te zetten dat al deze voorbeelden aggregeert. Daarmee kunnen de eindgebruikers vervolgens hun eigen toegespitste AI-systemen bouwen."

Gerichte, 'small data' aanpak

Een van de onderdelen van de nieuwe strategie is een andere manier van omgang met de kwaliteit van data op zo'n platform. In plaats van de 'data cleaning' die nu vaak toegepast wordt om enorme datasets te verbeteren, is het een betere aanpak om aan 'data preparation' te doen, zoals Ng het noemt. Daarbij wordt gebruik gemaakt van een foutanalyse-techniek die een subset van de data identificeert, die mogelijk in aanmerking komt voor verbetering. Deze gerichtere, 'small data' aanpak kan dan voorkomen dat er verkeerde uitkomsten ontstaan. Het eventuele probleem in de subset van de dataset kan dan namelijk worden aangepakt, bijvoorbeeld door daarvoor meer specifieke trainingsvoorbeelden te verzamelen.

In plaats van de kwaliteit van alle data te verbeteren - wat veel tijd, menselijke inzet en geld kost - is het op deze manier mogelijk om op een iteratieve manier veel gerichter te werk te gaan. Ng gaf een voorbeeld bij de ontwikkeling van spraakherkenning in de auto. De eerste gedachte bij ontwikkelaars is vaak om alle bijgeluiden in de auto te identificeren en te proberen die uit te filteren.
Een andere aanpak is juist te kijken naar de menselijke stem en vervolgens te identificeren welke onderdelen van omgevingsgeluiden ervoor zorgen dat de stem niet goed wordt geïnterpreteerd. Vervolgens kunnen die storende effecten worden weggedrukt. De eerstgenoemde methode werkt goed, maar de alternatieve methode werkt efficiënter, vooral op beperkte datasets, concludeert Ng.

Oproep aan gemeenschap

De AI-pionier maakt daarbij wel de aantekening dat deze aanpassing nog in de kinderschoenen staat. "We zijn nog in de eerste fasen waarbij we zowel de principes als de benodigde tools aan het bepalen zijn om de datasets te benaderen." Hij roept daarom anderen in de gemeenschap op mee te denken over deze veelbelovende, alternatieve aanpak.