Management

Zakelijke software
ethiek

Analytics, ethiek & AI – lekker belangrijk?

Predictive analytics: voorkom bias met solide databeleid

© CCO / Pixabay Tumisu
15 oktober 2019

Wanneer algoritmen zelfstandig beslissingen nemen, liggen er altijd risico’s op de loer. Bias kan zorgen voor verkeerde conclusies of zelfs ethisch ongewenste uitkomsten. Een goede kwaliteit van zowel interne als externe trainingsdata is ‘key’. Maar hoe waarborg je dat in je organisatie?

Predictive analytics heeft de afgelopen jaren een grote ontwikkeling doorgemaakt. Waren algoritmen in het begin vooral ‘rule-based’, tegenwoordig zijn deze door de komst van AI en machine learning (ML) in staat om grote hoeveelheden data te analyseren en daaruit conclusies te trekken

De technologie kan voorspellingen doen op een enorme schaalgrootte, ruimschoots voorbij de capaciteit van menselijke analisten.

Vloek of zegen?

Het gebruik van deze grote hoeveelheden data in geautomatiseerde processen heeft nu al een enorme impact op onze economie en maatschappij. Deze groeiende impact kan zowel een zegen als een vloek zijn. Het is een zegen als AI en predictive analytics de groeicondities van gewassen monitoren en zo boeren in India, Afrika en China ondersteunen. Het is ook een zegen als deze algoritmen bijdragen aan betere beslissingen die ervoor zorgen dat die boer zijn familie kan onderhouden.

Het is echter een vloek als algoritmen een bias vertonen door trainingsdata van slechte kwaliteit. Dat leidt niet alleen tot minder waardevolle voorspellingen en uitkomsten, maar kan zelfs ethische kwesties met zich meebrengen die bovendien kunnen leiden tot negatieve media-aandacht. Zo staakte Amazon een experiment met een sollicitatierobot toen bleek dat het algoritme een voorkeur had voor mannen. De trainingsdata bestonden voornamelijk uit cv’s van mannen. Daardoor had de robot een voorkeur hiervoor ontwikkeld.

Volwaardige asset

Ondanks de risico’s zijn er genoeg redenen om met AI en ML aan de slag te gaan. Organisaties die intensief gebruikmaken van AI en ML kennen gemiddeld 43 procent meer groei dan organisaties die deze technologieën niet of verkeerd gebruiken, aldus een recent onderzoek.
Een van de kenmerken van die eerstgenoemde groep is dat zij data behandelen als een volwaardige asset. Een die ze net zo koesteren als bijvoorbeeld hun inventaris, hun productiemiddelen of hun wagenpark. Een andere gemene deler is een duidelijk databeleid en C-level ownership over het proces. Dat is geen overbodige luxe. Hoe krachtig het algoritme ook mag zijn, trainingsdata van slechte kwaliteit zetten een rem op de effectiviteit en bruikbaarheid van AI en predictive analytics.

Bias voorkomen: 3 tips

Deze achilleshiel roept een belangrijke vraag op. Wat gebeurt er als transparantie, kwaliteit, eigendom en beheer van die data tekortschieten? Die vragen zijn met name relevant wanneer bedrijven data van buiten de eigen organisatie gebruiken voor het trainen van hun algoritmen. Van die data weten ze namelijk relatief weinig, en op de kwaliteit ervan hebben ze veel minder zicht. Wie externe data gebruikt in zijn eigen trainingsmodellen, zal dan ook de volgende zaken goed in de gaten moeten houden:

 1. Bewaak de datakwaliteit
  De kwaliteit van de data is van essentieel belang voor de kwaliteit van de predictve analytics en het voorkomen van bias. Kort gezegd geldt hier de uitspraak: ‘garbage in = garbage out’. Wat precies kwalitatief goede data zijn, is voor iedere organisatie anders. Doorgaans bedoelen we ermee dat data de werkelijkheid goed representeren, en bovendien actueel, integer en volledig zijn.Dit punt is vooral van belang wanneer het trainingsmodel gebruikmaakt van data afkomstig van buiten de organisatie. Daarop heb je doorgaans veel minder invloed dan op de kwaliteit van de ‘in house’ gegenereerde data. Continue waakzaamheid is daarbij dus geboden.
   
 2. Verzeker transparantie
  Alleen bij een goed begrip van een algoritme kun je vaststellen of er inderdaad sprake is van bias. Dat vraagt om volledige transparantie over de werking ervan. Bij een ‘black box’-algoritme is niet te achterhalen of bijvoorbeeld opvallende resultaten te wijten zijn aan te eenzijdige trainingsdata, of aan het algoritme zelf.
  Dan is er nog het ethisch aspect. Zeker wanneer algoritmes volledig zelfstandig en zonder menselijke interventie besluiten maken, is het wenselijk dat op zijn minst duidelijk is hoe die besluiten tot stand komen. Denk bijvoorbeeld aan een situatie waarin in een eerste sollicitatieronde een algoritme volledig zelfstandig de vijf meest geschikte kandidaten uitkiest. Het moet aan de ‘afvallers’ wel zijn uit te leggen waarom ze niet door de eerste selectie zijn gekomen.
   
 3. Monitor de impact en grijp tijdig in
  Automatische processen op basis van zelflerende algoritmes kunnen een grote impact hebben. Op je product of dienst, maar ook op mensen of zelfs de maatschappij in haar geheel. Die impact moet je altijd scherp op het netvlies houden. Bij ongewenste gevolgen moet je direct kunnen ingrijpen. Dat betekent dat je een plan moet hebben klaarliggen voor als het misgaat, maar dat je de impact ook continu moet vaststellen. Geef kundige medewerkers of zelfs directieleden ‘ownership’ en verantwoordelijkheid over het proces. Op die manier verklein je de kans op ongewenste uitkomsten en heb je een aanspreekpunt wanneer het misgaat.

Tot slot wil ik nog één vraag stellen om na te denken over hoe je data als een troef in je organisatie kunt behandelen. Hoe weten machines wat we belangrijk is als we niet duidelijk kunnen maken wat we zelf het meest belangrijk vinden?

Reactie toevoegen
2
Reacties
Rein Mertens 21 oktober 2019 12:29

Prima artikel. Ik zou het willen samenvatten als:

- datatransparantie: welke data is gebruikt in het algoritme en wat is de kwaliteit van deze data?
- modeltransparantie: welke versie van een algoritme is gebruikt en met welke parameters?
- beslissingstransparantie: in wat voor bedrijfs-/systeembeslissingen is het model gebruikt?

Daarnaast een aanvulling; momenteel wordt er veel werk gemaakt van de uitlegbaarheid van de algoritmes, zoals ook binnen de AVG-wetgeving in het kader van profilering wordt aangeduid met 'nuttige informatie over onderliggende logica'.

Mijn collega Jaimy heeft hier recent een aardig artikel over geschreven: https://www.techzine.nl/blogs/data/433077/artificial-intelligence-hoeft…

Hans Bezemer 16 oktober 2019 11:32

Het ligt even iets complexer met de Amazon casus. In de media wordt de vermeende "gender bias" breed uitgemeten, maar er was nog wel wat meer mis (zie: https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/a… ), getuige: "Problems with the data that underpinned the models’ judgments meant that unqualified candidates were often recommended for all manner of jobs, the people said. With the technology returning results almost at random, Amazon shut down the project, they said".

Tenslotte lopen technologie en ideologie hier fijntjes door elkaar. Bij de in het artikel genoemde "gendergap" wordt impliciet verondersteld dat er een 50-50 verdeling dient te zijn tussen mannen en vrouwen. Dat is iets anders als dat geslacht vanzelfsprekend geen rol mag spelen bij het bepalen van de geschiktheid voor een job.

Kijken we naar Open Source projecten, dan zien we dat zo'n 25.000 stuks eenmansprojecten zijn. Slechts 1 op de 10 ervan worden getrokken door vrouwen. Het valt lastig uit te leggen dat dit het gevolg is van "bias", temeer omdat iedereen een anonieme "handle" kan kiezen om zich te identificeren.

Een verklaring voor die discrepantie is nog niet gevonden - in ieder geval niet een, die brede acceptatie vindt. Wel kan geconcludeerd worden, dat de zo gewenste 50-50 verdeling geen wetenschappelijke basis heeft - zij vindt haar oorsprong in ideologie.

Tel daarbij op dat het aanbod van vrouwelijke kandidaten achterblijft bij die van mannen en het valt het algoritme niet te verwijten als deze geen kandidaten selecteert in de zo gewenste 50-50 verhouding.

Het "corrigeren" van een veronderstelde "bias", die een dergelijke verhouding wel op zou leveren zou de facto niet het verwijderen, maar juist het aanbrengen van een bias zijn.