Innovatie & Strategie

Artificial Intelligence
Automatisch checken op bias is goed, maar niet volledig

Automatisch checken op bias is goed, maar niet volledig

Tool zorgt wel voor bewustwording bij gebruiker over bias in data, maar lost het probleem niet per se op.

24 juli 2020

Tool zorgt wel voor bewustwording bij gebruiker over bias in data, maar lost het probleem niet per se op.

Dat AI-systemen bias kunnen bevatten, is een veelbesproken onderwerp. Steeds meer leveranciers komen daarom met tools waarmee automatisch bias kan worden gedetecteerd. Kun je een IT-tool inzetten om bias te ontdekken in een IT-tool? Zo’n detectietool zorgt voor bewustwording, zeggen experts, maar haalt niet alle bias uit de data of het algoritme.

Voorbeelden van IT-systemen die bias bevatten zijn er genoeg en ze zijn allemaal pijnlijk. Een sollicitatiesysteem dat vooral CV’s van mannen er uit haalt, omdat het zich baseert op historische data en in het verleden zijn veel mannen aangenomen. Een Amerikaans preventiesysteem dat zich baseert op data van verzekerden en alleen preventie-advies aan witte mensen kan geven, omdat in de trainingsdata te weinig data van zwarte mensen zit. Het aantal verzekerden onder de zwarte bevolking is namelijk lager omdat zij zich vaak niet kunnen verzekeren.

Dat deze systemen tot discriminerende uitkomsten komen, heeft te maken met de data die is ingevoerd. “Alle mogelijke bias komt voor in data”, zegt Reinoud Kaasschieter, AI en ECM-expert bij Capgemini. “Bias hoeft in principe niet erg te zijn. We vinden vooral bias erg die discrimineert en dus ook grondwettelijke principes overtreedt.” Omdat die bias maatschappelijk onaanvaardbaar is, wordt veel onderzoek gedaan hoe die bias te voorkomen. Kaasschieter vervolgt: “Er zijn weinig mensen die opzettelijk discriminatie inbouwen in een systeem, maar toch komen discrimineerde systemen regelmatig voor. En dat komt omdat de data die wordt ingevoerd niet neutraal is. Deeplearning-algoritmen zijn wel neutraal.”

Selectiebias, informatiebias en bias bij trekken van conclusies

Er zijn verschillende vormen van bias, legt dataspecialist Rutger Rienks uit. Hij werkte in verschillende rollen met het uitkomsten van data-analyses, onder andere bij de politie. Het begint bij het verzamelen van data, daar komt selectiebias voor. “Heb je wel de juiste afspiegeling van de doelgroep ondervraagd? Of zit de vragenlijst goed in elkaar? In de mens zitten eigenschappen die voor onevenwichtigheid in uitkomsten zorgen. Ze zijn eerder geneigd te kiezen voor antwoord a, dan voor b. Ze hebben ook meer aandacht voor vraag één dan voor vraag twintig. Daar moet je met de opbouw van een questionnaire rekening mee houden.”

Dan is er nog de informatiebias. Klopt de gevonden informatie wel met de werkelijkheid? “Niet alleen menselijke data kan bias bevatten, ook data van sensoren kan dat. Staan sensoren wel op de juiste hoogte? Is de lens zuiver? Dat zijn allerlei factoren die de betrouwbaarheid beïnvloeden.” En dan speelt er ook bias bij het trekken van conclusies. Is de onderzoeker misschien zelf ergens op uit? “Je kunt allerlei vondsten in data doen die wel correlaties aantonen, maar geen causaliteit”, zegt Rienks. Bij deeplearning is er volgens hem bijvoorbeeld het gevaar dat er op basis van historische data conclusies worden getrokken die niet reproduceerbaar en uitlegbaar zijn.

De eerste vorm van bias, de selectiebias, daar gaat het vaak mis bij het gebruik van IT-systemen. De dataset die wordt gebruikt is niet volledig en mist data, waardoor van bepaalde data een overschot is. “Als je gericht onderzoek doet, denk je na over de dataset. Maar dat doe je bij deeplearning en AI niet. Daar gebruik je big data omdat je grote hoeveelheden gegevens nodig hebt om het systeem te laten leren. Je analyseert dan data die misschien voor een ander doel is verzameld”, zegt Kaasschieter. Zijn advies is daarom om goed na te denken of de dataset, die je wilt gebruiken, wel geschikt is voor het doel dat je hebt.

Geautomatiseerde tools

Naar bias en het voorkomen ervan wordt veel (wetenschappelijk) onderzoek gedaan en steeds meer leveranciers proberen de lessen ook naar de praktijk te brengen. Pegasystems kwam bijvoorbeeld onlangs met een tool die een gebruiker hierbij helpt. De Ethical Bias Check controleert of bij een geautomatiseerde businessbeslissing op de onderliggende data wel goed verdeeld is en geeft een percentage van de afwijking. “Bij alle beslissingen komt bias voor”, zegt assistent professor Peter van der Putten. Hij is director of Decisioning Solutions bij Pegasystems. “Ook op het oog onschuldige beslissingen kunnen door bias minder onschuldig worden. Bijvoorbeeld als je een creditcardaanbieding wilt uitsturen naar een deel van het klantenbestand. Als er dan meer mannen dan vrouwen een betere aanbieding krijgen, bijvoorbeeld omdat ze in een andere looncategorie zitten, geeft dat een scheve verdeling. Deze tool laat zien dat een beslissing genomen is met data die bias bevat en waar die bias zit.”

IBM kwam al in 2018 met de Fairness 360 Kit, die onlangs nog een update kreeg. Deze tool laat realtime zien hoe een algoritme een besluit maakt. Het laat het zien welke data een belangrijke rol speelt bij het maken van de beslissing. Google kwam al wat eerder met een ‘what-if-tool’ die een prestatie- en eerlijkheidsanalyse doet op algoritme. Deze tool splitst data in eerlijke delen en bekijk zo of het toepassen van het algoritme op beide delen dezelfde uitkomst geeft.

De tools halen de bias niet uit de data, maar detecteren waar die zit, zegt Van der Putten. “Bias volledig uit data halen, dat lukt niet. Onze tool laat zien dat bias voorkomt in de data en dat dat gevolgen heeft voor de beslissing die wordt genomen. De klant moet dan zelf bepalen of de uitkomst gerechtvaardigd is, of niet.

Om de tuin te leiden

Rienks vindt het goed dat de gebruiker bewust wordt gemaakt van eventuele bias in de data, maar deze systemen gaan wel uit van transparantie, eerlijkheid en ethiek van de gebruiker. “De gebruiker moet aangeven wat er in een bepaalde kolom staat, maar zou dat ook kunnen maskeren. Vrouw/man kun je ook vervangen door 1/0. Dus ze zijn gemakkelijk om te tuin te leiden en maken het voorkomen van uitspraken door algoritmen getraind met een bias in de data niet onmogelijk.”

Bovendien, zegt Kaasschieter, is de tool een zeer grove kam die je door de data haalt. Je haalt de meest evidente bias uit de data, maar niet alles. De tool kijkt namelijk naar expliciete factoren, maar data geeft ook impliciete informatie. “Je kunt zeggen we nemen geen beslissing op basis van informatie over inkomen. Maar stel je neemt die kolom niet mee, maar wel een kolom over postcode. Postcode kan ook iets zeggen over inkomen, want het zegt iets over de buurt waar je woont. Of je neemt leeftijd niet mee in de beslissing om iemand aan te nemen, maar wel werkervaring. Werkervaring kan ook iets zeggen leeftijd.”

Maar toch, zegt Van der Putten, dit is een eerste en heel belangrijke stap. Dat is Kaasschieter met hem eens. Al denkt hij dat de volgende stap moeilijk wordt. “Bias is een maatschappelijk verschijnsel en gaat over vooroordelen. Wil je bias kunnen uitsluiten, dan moet je alle vooroordelen benoemen en detecteren in data. Dat is ondoenlijk.”

Er ligt dus nogal wat verantwoordelijkheid bij de gebruiker van de tool. Niet alleen in het transparant zijn bij invoer, ook bij wat hij uiteindelijk met de uitkomst gaat doen. Pegasystems geeft met zijn tool aan hoeveel bias de beslissing bezit. Van der Putten: “De organisatie moet vervolgens zelf bepalen of de afwijking klein genoeg is. Hoeveel bias een klant accepteert, die discussie moet intern worden gevoerd.” Dat is een gesprek dat niet door IT moet worden gevoerd. Van der Putten vervolgt: “Dat is een businessdiscussie en kan bijvoorbeeld bij een Chief Ethics Officer worden belegd.”

Kaasschieter is het met hem eens dat alleen het gebruiken van een tool niet voldoende is. “We moeten een tool niet zien als een checklist die een werknemer moet afgaan. Dat een organisatie denkt dat alles in orde is omdat er alleen groene vinkjes zijn. Het voorkomen van bias, het praten erover, dat moet in de cultuur van de organisatie zijn ingebed. Het moet in de cultuur zitten dat een werknemer aan de bel trekt als een algoritme discrimineert en dat dat geen gevolgen voor hem heeft. Als dat in het DNA van de organisatie zit, dan pas kan bias echt bij de wortel aanpakken.”

Lees meer over Innovatie & Strategie OP AG Intelligence
1
Reacties
Lezer#3551 Karman 24 juli 2020 11:31

De bias in het artikel is dat bias bij voorbaat ongewenst is.
Neem nu het verschil in lichaamslengte tussen mannen en vrouwen. Als er een eis is op een lichaamslengte of fysieke kracht, dan zal in de selectie van geschiktheid automatisch een bias ontstaan naar geslacht. Dat is niet te voorkomen en niet specifiek op personen gericht hoewel wel specifieke personen hun voorkeur geblokkeerd zien.

Het voorbeeld van een creditcard aanbieding gericht op aangegeven bekend inkomen is een goed voorbeeld waarbij de keus waarop de aanbieding gebaseerd is een effect heeft van wat mensen foute bias kunnen vinden maat het niet zo hoeft te zijn.

Het is een raar vooroordeel dat als iets met computers uit data gehaald wordt dat het dan vrijwel altijd met een verwijtbare discriminerende bias gaat. en dat mensen zelf vrij van bias en vooroordelen zijn.

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.