'Foto's Flickr-gebruikers ongevraagd te koop in AI-trainingsset'

Zonder medeweten van de gefotografeerde personen of fotografen, heeft IBM zijn AI-systemen voor gezichtsherkenning getraind met een miljoen foto’s van fotowebsite Flickr. Na dit eigen gebruik biedt de technologiefabrikant dat materiaal nu te koop aan in een AI-trainingsset. De techreus biedt deze dataset aan voor andere ontwikkelaars om 'de eerlijkheid in de techniek te brengen'.

Thomas NieheMeer van deze auteur

Voor het trainen van kunstmatige intelligentie-modellen is veel data nodig, en in het geval van gezichtsherkenningstechnieken had IBM dus veel fotomateriaal nodig om zijn modellen te trainen. Volgens de Amerikaanse nieuwszender NBC maakte IBM in de zoektocht naar trainingsdata gebruik van een dataset bestaande uit Flickr-foto’s. Dit beeldmateriaal is zonder medeweten van de fotografen en de gefotografeerde personen gebruikt en inmiddels door IBM ook weer als dataset te koop gezet.

Dataset te koop

De techfabrikant kocht de dataset van Flickr-eigenaar Yahoo, en filterde er zelf de foto's met duidelijke gezichten uit. Yahoo bood in 2014 de dataset met in totaal 100 miljoen Flickr-foto’s aan, waar IBM na filtering een bundel van 1 miljoen bruikbare foto's aan overhield. Die foto's werden door IBM gecodeerd met informatie over de uiterlijke en etnische kenmerken van de gefotografeerde personen en zijn nu dus weer te koop gezet door IBM.

De fabrikant prijst de dataset aan met de mededeling dat deze 'Diversity of Faces'-dataset kan helpen de "eerlijkheid in de techniek te brengen". Het gaat hierbij om het tekortschieten van gezichtsherkenning voor bepaalde bevolkingsgroepen. Volgens NBC stuit het fotogebruik van IBM op veel weerstand. Zo zouden gebruikers hun foto's in een ander 'ecosysteem' van het internet hebben gepubliceerd, en niet op de hoogte zijn van het feit dat hun foto's of gezichten nu onderdeel zijn van een trainingspakket voor gezichtsherkenning.

Wie zijn foto uit de dataset verwijderd wil hebben, kan dit volgens IBM bij de fabrikant aangeven. Het is echter moeilijk voor gebruikers of gefotografeerden om te controleren of ze onderdeel zijn van de dataset, omdat deze niet inzichtelijk is gemaakt door IBM. Wie toch wil testen of zijn foto's gebruikt zijn in de dataset, kan bij de Amerikaanse nieuwszender NBC zijn of haar Flickr-gebruikersnaam controleren in een speciaal gebouwde tool. Hiermee zijn gefotografeerde mensen echter niet of nauwelijks geholpen.

Ethische bezwaren

De ontwikkeling en inzet van kunstmatige intelligentie-technieken stuiten de laatste tijd op steeds meer weerstand, omdat het volgens critici gevoelig is voor ethisch gevoelige fouten, etnisch profileringen of discriminatie. Zo riepen aandeelhouders van Amazon onlangs op tot een verkoopstop van de AI-tool Rekognition van AWS, en riepen bestuurders van onder andere Microsoft en Thales op tot meer regulering rondom de techniek.