Bewaar data voor ze door AI vervuild raken
Generatieve AI krijgt een grote invloed op de kwaliteit van data die op het internet rondgaan. Hallucinaties, synthetische data en nepnieuws creëren irreële informatie waarmee AI-modellen zichzelf weer voeden. Red de hoogwaardige data voor de toekomst, is het streven van onder meer de CTO van Cloudflare en verschillende wetenschappers.

John Graham-Cumming, CTO van Cloudflare, maakt een vergelijking met de eerste explosie van een atoombom tijdens de Trinity-test in New Mexico in 1945. Microscopisch kleine deeltjes van die en volgende atoombom-explosies verspreidden zich door de lucht en vervuilen sindsdien de productie van metaal met een verhoogde achtergrondstraling. Gevoelige meetinstrumenten hebben last van die vervuilde metalen. Daarom startte een zoektocht naar metalen van voor 1945 die weinig achtergrondstraling opleveren.
Modellen kunnen ten onder gaan aan vervuilde data
Op dezelfde manier denkt Graham-Cumming dat het belangrijk is data te verzamelen die niet vervuild zijn door de werking van AI. Hij heeft er in maart 2023 al de website lowbackgroundsteel.ai voor opgezet. Hij is niet de enige, concludeert The Register. Ook wetenschappers uiten zorgen, al is er discussie over hoe goed vervuilde data uit modellen te filtreren valt. In december vorig jaar schreef een groep wetenschappers over hun vrees dat veel modellen uiteindelijk ten onder zouden gaan aan dit probleem.
Voor onvervuild staal wordt gebruik gemaakt van gezonken marineschepen. Daardoor is een nagenoeg oneindige hoeveelheid ‘schoon’ materiaal voorhanden, zegt Maurice Chiodo, onderzoeker bij het Centre for the Study of Existential Risk in Cambridge tegen The Register. We hebben daarom data nodig van vóór 2022, voordat de genAI-explosie plaatsvond. “Dan kun je er redelijk zeker van zijn dat de data minimale vervuiling bevat.”
Schone data kunnen machtsfactor worden
Het opschonen van data is lastig, denkt Chiodo. Verplicht labelen van AI-gegenereerde data is eigenlijk ondoenlijk en labels zijn ook weer makkelijk te verwijderen. In ieder geval is het opschonen een zeer kostbare aangelegenheid.
Toegang tot schone data kan daarom straks een machtsfactor worden als alleen grote gevestigde organisaties en overheden over grote hoeveelheden bronnen van voor 2022 beschikken.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee