Nieuw model poetst bias uit algoritmen

De gemeente Amsterdam en het Centraal Bureau voor de Statistiek hebben een nieuw model onderzocht om vooroordelen te voorkomen in hun algoritmen door de trainingsdata voor hun machinelearningtoepassingen beter te filteren.

Thijs DoorenboschMeer van deze auteur

polariteit — © CC0 - Pixabay

CC0 - Pixabay

Het model is ontwikkeld door Rik Helwegen tijdens zijn Master of Science-stage Artificial Intelligence aan de Universiteit van Amsterdam. Het gaat nogal eens mis bij de toepassing van bigdata-analyse, meldde Binnenlands Bestuur gisteren. Zo moest de gemeente Rotterdam stoppen met de Systeem Risico-indicatie om uitkeringsfraude op te sporen. De inzet van het algoritme zou mensen onterecht verdacht maken door het gebruik van gekleurde trainingsdata.

Het onbekende

Helwegen maakte bij het ontwikkelen van dit model gebruik van een combinatie van recente technieken waaronder het concept 'counterfactual fairness'. Dat gaat uit van het vermijden van gevoelige kenmerken van een persoon. Het ontdekken van causale verbanden tussen data is dan heel belangrijk, vertelde Helwegen aan Binnenlands Bestuur, een zusterpublicatie van AG Connect.

In sommige gevallen zijn die verbanden duidelijk (de known knowns) zoals het koppelen van een migratieachtergrond aan een plek waar iemand woont. Bij het gebruik van de data over die locatie neem je de migratieachtergrond mee. Veel lastiger is het om te gaan met verbanden waar je wel bekend mee bent maar waar je je niet zo bewust van bent (de unknown knowns) of nog ingewikkelder: de dingen die je niet weet en waar je je ook niet van bewust bent (unknown unknowns). Daarom is het onderzoek nog in academisch experimentele fase, licht Helwegen toe bij navraag door AG Connect.

Complexe exercitie

Het model dat Helwegen ontwikkelde, probeert eerst de causale verbanden tussen data in kaart te brengen. Dat is dus een heel complexe exercitie. "Het hangt sterk af van het domein waar je in werkt. Het is erg belangrijk te praten met experts uit dat domein. Na het maken van veronderstellingen kan met statistische technieken getest worden of de data hiermee in lijn zijn", legt Helwegen uit. Het model heeft als doel om meer rekening te houden met ethische eisen aan de uitkomsten van algoritmen.

De resultaten van de onderzoeksstage zijn zo bemoedigend dat de gemeente Amsterdam en het CBS nu gaan onderzoeken of zij de methode breder kunnen toepassen en verder ontwikkelen.

Meer over de opzet en de resultaten van het onderzoek op de site van Binnenlands Bestuur.