Overslaan en naar de inhoud gaan

Bewaar data voor ze door AI vervuild raken

Generatieve AI krijgt een grote invloed op de kwaliteit van data die op het internet rondgaan. Hallucinaties, synthetische data en nepnieuws creëren irreële informatie waarmee AI-modellen zichzelf weer voeden. Red de hoogwaardige data voor de toekomst, is het streven van onder meer de CTO van Cloudflare en verschillende wetenschappers.

Explosie atoombom
Explosie atoombom
Shutterstock

John Graham-Cumming, CTO van Cloudflare, maakt een vergelijking met de eerste explosie van een atoombom tijdens de Trinity-test in New Mexico in 1945. Microscopisch kleine deeltjes van die en volgende atoombom-explosies verspreidden zich door de lucht en vervuilen sindsdien de productie van metaal met een verhoogde achtergrondstraling. Gevoelige meetinstrumenten hebben last van die vervuilde metalen. Daarom startte een zoektocht naar metalen van voor 1945 die weinig achtergrondstraling opleveren.

Modellen kunnen ten onder gaan aan vervuilde data

Op dezelfde manier denkt Graham-Cumming dat het belangrijk is data te verzamelen die niet vervuild zijn door de werking van AI. Hij heeft er in maart 2023 al de website lowbackgroundsteel.ai voor opgezet. Hij is niet de enige, concludeert The Register. Ook wetenschappers uiten zorgen, al is er discussie over hoe goed vervuilde data uit modellen te filtreren valt. In december vorig jaar schreef een groep wetenschappers over hun vrees dat veel modellen uiteindelijk ten onder zouden gaan aan dit probleem.

Voor onvervuild staal wordt gebruik gemaakt van gezonken marineschepen. Daardoor is een nagenoeg oneindige hoeveelheid ‘schoon’ materiaal voorhanden, zegt Maurice Chiodo, onderzoeker bij het Centre for the Study of Existential Risk in Cambridge tegen The Register. We hebben daarom data nodig van vóór 2022, voordat de genAI-explosie plaatsvond. “Dan kun je er redelijk zeker van zijn dat de data minimale vervuiling bevat.”

Schone data kunnen machtsfactor worden

Het opschonen van data is lastig, denkt Chiodo. Verplicht labelen van AI-gegenereerde data is eigenlijk ondoenlijk en labels zijn ook weer makkelijk te verwijderen. In ieder geval is het opschonen een zeer kostbare aangelegenheid.

Toegang tot schone data kan daarom straks een machtsfactor worden als alleen grote gevestigde organisaties en overheden over grote hoeveelheden bronnen van voor 2022 beschikken.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in