Innovatie & Strategie

Dit is een bijdrage van Itility
Datamanagement
Machine learning betrouwbaarheid

De wetenschap achter machine learning

Naarmate bedrijven meer met data science doen, wordt de betrouwbaarheid en traceerbaarheid van machine learning-modellen steeds belangrijker.

24 juni 2019
Door: Itility, partner

Naarmate bedrijven meer met data science doen, wordt de betrouwbaarheid en traceerbaarheid van machine learning-modellen steeds belangrijker.

Is er in de wetenschap ooit een paper gepubliceerd waarvan de methodologie niet tot in detail is uitgeschreven? Of dat niet is beoordeeld volgens het peer review-principe? Het antwoord op die vragen zou nee moeten zijn. Op de lijst van gouden regels die de wetenschap rijk is, prijken betrouwbaarheid en repliceerbaarheid misschien wel bovenaan. In de academische wereld is het van groot belang er zeker van te zijn dat je meet wat je wilt meten en dat een model – in welke vorm dan ook – consequent de goede resultaten levert. En bovendien: dat anderen dit kunnen nagaan. In de wereld van data science zijn die zaken minstens zo belangrijk, maar tot op heden nog vaak buiten beschouwing gelaten. Hoog tijd dus om de traceerbaarheid en betrouwbaarheid van machine learning-modellen (ML-modellen) eens onder de loep te nemen.

Machine learning tools
De markt van machine learning staat op ontploffen. Het aantal machine learning tools en frameworks dat beschikbaar is voor iedere fase van de machine learning lifecycle neemt iedere dag toe. Net als het aantal data scientists dat afstudeert. Het doel van een data scientist is om – met die tools en frameworks – bruikbare ML-modellen te creëren die waarde toevoegen aan bedrijfsprocessen en bedrijven daarmee verder te helpen in het proces om datagedreven en digitaal te worden. De vele tools en manieren om met data te werken en ML-modellen te ontdekken, brengen echter uitdagingen met zich mee op het vlak van precies die pijlers waar ook de academische wereld op gestoeld is: betrouwbaarheid en traceerbaarheid.

Traceerbare datamodellen
Het moment dat we meer met data science gaan doen – en de uitkomsten van ML-modellen embedden in de organisatie – is ook het moment dat traceerbaarheid en repliceerbaarheid van ML-modellen belangrijker wordt.

Modellen moeten immers optimaal blijven functioneren wanneer ze worden geïntegreerd in – soms bedrijfskritische – processen. Zeker wanneer ze op eigen kracht – en dus zonder menselijke controle – beslissingen nemen. Hoe een ML-model tot stand komt is echter niet altijd te valideren door derden. Het draait om het resultaat en als het werkt, is het goed. Daardoor worden tussentijdse wijzigingen om het model te optimaliseren vaak niet geregistreerd. Er komt echter een moment waarop de kwaliteit van een opnieuw getraind ML-model slechter wordt dan het oude model. Bijvoorbeeld wanneer de dataset vervuild raakt of wanneer de realiteit die je probeert te automatiseren verandert. Dan wordt het ineens noodzakelijk te kunnen achterhalen hoe het model tot stand is gekomen, wie het heeft gemaakt en met welke tool en data het is getraind. Ofwel om verbeteringen aan te brengen, ofwel om verouderde modellen passend te maken voor een nieuwe werkelijkheid. Zonder daarbij afhankelijk te zijn van de data scientist die het model maakte. Alleen door te weten op welk moment het in productie is misgegaan, kunnen problemen worden opgelost.

Standaardisatie in data science
De moeilijkheid zit hem in twee dingen: de wildgroei aan bestaande machine learning tools en de ‘koppige data scientists’ die gewend zijn op hun eigen manier te werken. Op dit moment is er geen sprake van een universele, gestandaardiseerde aanpak voor het bouwen, valideren en traceren van datamodellen, terwijl die wel nodig is om kwaliteit te garanderen. Want wat gebeurt er wanneer een model gebouwd met Tensorflow foutieve resultaten geeft, terwijl de datawetenschapper die het probleem moet traceren en oplossen enkel bekend is met PyTorch of Spark ML? Hoewel ML-modellen in essentie losstaan van het framework – aangezien ze zijn gebaseerd op generieke wiskundige principes – levert dit wel een praktische moeilijkheid op.

Het is een reëel vraagstuk dat vraagt om een goede organisatie, structuur en onderlinge samenwerking. Data scientists moeten op eenzelfde manier als software developers in staat zijn elkaars werk in te zien en te valideren, ongeacht tools en frameworks. Het zou immers zonde zijn als de implementatie van waardevolle datamodellen vertraging oploopt, omdat niet iedereen dezelfde kennis heeft van dezelfde tools.

Reuzen als Google en Facebook zijn wellicht de enige bedrijven die dit proces goed op orde hebben. Van origine datagedreven technologiebedrijven, zijn zij ooit als eerste tegen dit probleem aan gelopen en beschikten daarbij over de resources en vaardigheden om het aan te pakken. Een luxe die ervoor heeft gezorgd dat ze hun eigen manier van werken konden ontwikkelen om de kwaliteit van hun eigen datamodellen te waarborgen. Voor de rest van de wereld, die nu pas in de wereld van data science duikt, is het zaak hier nu al goed over na te denken om latere problemen te voorkomen.

Collaboratie
Uiteindelijk zullen we op het vlak van data science dezelfde ontwikkeling zien als destijds op het gebied van software development. Vandaag de dag is er geen developer die zijn code niet laat controleren door peers of die niet weet wat version control is. Software developers worden in de schoolbanken al getraind in de juiste manier van samenwerken. Los van de vaardigheid om code te bouwen, beschikken zij dus over een collaboratievaardigheid waarbij dat in de wereld van data science nog geen gegeven is. Gezien de snelheid waarmee bedrijven datagedreven worden en het tempo waarmee nieuwe datawetenschappers worden opgeleid, kan dat niet zo blijven.

Wees dus klaar voor deze groei en pas de organisatie erop aan. Zorg voor een zekere mate van standaardisatie, op zijn minst intern, zodat altijd traceerbaar is hoe data wordt gebruikt in een model en hoe het model functioneert – ongeacht tool, framework of competentie. Denk bijvoorbeeld aan een open source machine learning-platform, zoals MLFlow, om de keten van data science binnen de organisatie te stroomlijnen. Zorg er daarnaast voor dat modellen van test naar productie worden gebracht via een pipeline die version control, automated testing van datavalidatie en peer review van de code bevat.

Geoliede machine
Door schade en schande worden we wijs. Maar een goede voorbereiding is het halve werk. Kijk dus verder dan enkel de hype rondom machine learning en maak van data science de geoliede machine die het hoort te zijn. Ongeacht tooling, framework of competentie. Alleen zo behoud je de snelheid die nodig is om vooruit te komen.

Zet data centraal in uw bedrijf op een veilige, professionele en schaalbare manier met behulp van een Data Factory.

Reactie toevoegen