Analytics, ethiek & AI – lekker belangrijk?

Wanneer algoritmen zelfstandig beslissingen nemen, liggen er altijd risico’s op de loer. Bias kan zorgen voor verkeerde conclusies of zelfs ethisch ongewenste uitkomsten. Een goede kwaliteit van zowel interne als externe trainingsdata is ‘key’. Maar hoe waarborg je dat in je organisatie?

Marc TeerlinkMeer van deze auteur

Predictive analytics heeft de afgelopen jaren een grote ontwikkeling doorgemaakt. Waren algoritmen in het begin vooral ‘rule-based’, tegenwoordig zijn deze door de komst van AI en machine learning (ML) in staat om grote hoeveelheden data te analyseren en daaruit conclusies te trekken

De technologie kan voorspellingen doen op een enorme schaalgrootte, ruimschoots voorbij de capaciteit van menselijke analisten.

Vloek of zegen?

Het gebruik van deze grote hoeveelheden data in geautomatiseerde processen heeft nu al een enorme impact op onze economie en maatschappij. Deze groeiende impact kan zowel een zegen als een vloek zijn. Het is een zegen als AI en predictive analytics de groeicondities van gewassen monitoren en zo boeren in India, Afrika en China ondersteunen. Het is ook een zegen als deze algoritmen bijdragen aan betere beslissingen die ervoor zorgen dat die boer zijn familie kan onderhouden.

Het is echter een vloek als algoritmen een bias vertonen door trainingsdata van slechte kwaliteit. Dat leidt niet alleen tot minder waardevolle voorspellingen en uitkomsten, maar kan zelfs ethische kwesties met zich meebrengen die bovendien kunnen leiden tot negatieve media-aandacht. Zo staakte Amazon een experiment met een sollicitatierobot toen bleek dat het algoritme een voorkeur had voor mannen. De trainingsdata bestonden voornamelijk uit cv’s van mannen. Daardoor had de robot een voorkeur hiervoor ontwikkeld.

Volwaardige asset

Ondanks de risico’s zijn er genoeg redenen om met AI en ML aan de slag te gaan. Organisaties die intensief gebruikmaken van AI en ML kennen gemiddeld 43 procent meer groei dan organisaties die deze technologieën niet of verkeerd gebruiken, aldus een recent onderzoek.
Een van de kenmerken van die eerstgenoemde groep is dat zij data behandelen als een volwaardige asset. Een die ze net zo koesteren als bijvoorbeeld hun inventaris, hun productiemiddelen of hun wagenpark. Een andere gemene deler is een duidelijk databeleid en C-level ownership over het proces. Dat is geen overbodige luxe. Hoe krachtig het algoritme ook mag zijn, trainingsdata van slechte kwaliteit zetten een rem op de effectiviteit en bruikbaarheid van AI en predictive analytics.

Bias voorkomen: 3 tips

Deze achilleshiel roept een belangrijke vraag op. Wat gebeurt er als transparantie, kwaliteit, eigendom en beheer van die data tekortschieten? Die vragen zijn met name relevant wanneer bedrijven data van buiten de eigen organisatie gebruiken voor het trainen van hun algoritmen. Van die data weten ze namelijk relatief weinig, en op de kwaliteit ervan hebben ze veel minder zicht. Wie externe data gebruikt in zijn eigen trainingsmodellen, zal dan ook de volgende zaken goed in de gaten moeten houden:

Bewaak de datakwaliteit
De kwaliteit van de data is van essentieel belang voor de kwaliteit van de predictve analytics en het voorkomen van bias. Kort gezegd geldt hier de uitspraak: ‘garbage in = garbage out’. Wat precies kwalitatief goede data zijn, is voor iedere organisatie anders. Doorgaans bedoelen we ermee dat data de werkelijkheid goed representeren, en bovendien actueel, integer en volledig zijn.Dit punt is vooral van belang wanneer het trainingsmodel gebruikmaakt van data afkomstig van buiten de organisatie. Daarop heb je doorgaans veel minder invloed dan op de kwaliteit van de ‘in house’ gegenereerde data. Continue waakzaamheid is daarbij dus geboden.
Verzeker transparantie
Alleen bij een goed begrip van een algoritme kun je vaststellen of er inderdaad sprake is van bias. Dat vraagt om volledige transparantie over de werking ervan. Bij een ‘black box’-algoritme is niet te achterhalen of bijvoorbeeld opvallende resultaten te wijten zijn aan te eenzijdige trainingsdata, of aan het algoritme zelf.
Dan is er nog het ethisch aspect. Zeker wanneer algoritmes volledig zelfstandig en zonder menselijke interventie besluiten maken, is het wenselijk dat op zijn minst duidelijk is hoe die besluiten tot stand komen. Denk bijvoorbeeld aan een situatie waarin in een eerste sollicitatieronde een algoritme volledig zelfstandig de vijf meest geschikte kandidaten uitkiest. Het moet aan de ‘afvallers’ wel zijn uit te leggen waarom ze niet door de eerste selectie zijn gekomen.
Monitor de impact en grijp tijdig in
Automatische processen op basis van zelflerende algoritmes kunnen een grote impact hebben. Op je product of dienst, maar ook op mensen of zelfs de maatschappij in haar geheel. Die impact moet je altijd scherp op het netvlies houden. Bij ongewenste gevolgen moet je direct kunnen ingrijpen. Dat betekent dat je een plan moet hebben klaarliggen voor als het misgaat, maar dat je de impact ook continu moet vaststellen. Geef kundige medewerkers of zelfs directieleden ‘ownership’ en verantwoordelijkheid over het proces. Op die manier verklein je de kans op ongewenste uitkomsten en heb je een aanspreekpunt wanneer het misgaat.

Tot slot wil ik nog één vraag stellen om na te denken over hoe je data als een troef in je organisatie kunt behandelen. Hoe weten machines wat we belangrijk is als we niet duidelijk kunnen maken wat we zelf het meest belangrijk vinden?