Nieuws Datamanagement Analytics Artificial Intelligence

23 juni 2025 leestijd 1 minuut 0 reacties

Bewaar data voor ze door AI vervuild raken

Generatieve AI krijgt een grote invloed op de kwaliteit van data die op het internet rondgaan. Hallucinaties, synthetische data en nepnieuws creëren irreële informatie waarmee AI-modellen zichzelf weer voeden. Red de hoogwaardige data voor de toekomst, is het streven van onder meer de CTO van Cloudflare en verschillende wetenschappers.

Thijs Doorenbosch is freelance journalist en tekstschrijver. Hij was meer dan dertig jaar vaste redacteur bij AG Connect (voorheen AutomatiseringGids) Meer van deze auteur

John Graham-Cumming, CTO van Cloudflare, maakt een vergelijking met de eerste explosie van een atoombom tijdens de Trinity-test in New Mexico in 1945. Microscopisch kleine deeltjes van die en volgende atoombom-explosies verspreidden zich door de lucht en vervuilen sindsdien de productie van metaal met een verhoogde achtergrondstraling. Gevoelige meetinstrumenten hebben last van die vervuilde metalen. Daarom startte een zoektocht naar metalen van voor 1945 die weinig achtergrondstraling opleveren.

Modellen kunnen ten onder gaan aan vervuilde data

Op dezelfde manier denkt Graham-Cumming dat het belangrijk is data te verzamelen die niet vervuild zijn door de werking van AI. Hij heeft er in maart 2023 al de website lowbackgroundsteel.ai voor opgezet. Hij is niet de enige, concludeert The Register. Ook wetenschappers uiten zorgen, al is er discussie over hoe goed vervuilde data uit modellen te filtreren valt. In december vorig jaar schreef een groep wetenschappers over hun vrees dat veel modellen uiteindelijk ten onder zouden gaan aan dit probleem.

Voor onvervuild staal wordt gebruik gemaakt van gezonken marineschepen. Daardoor is een nagenoeg oneindige hoeveelheid ‘schoon’ materiaal voorhanden, zegt Maurice Chiodo, onderzoeker bij het Centre for the Study of Existential Risk in Cambridge tegen The Register. We hebben daarom data nodig van vóór 2022, voordat de genAI-explosie plaatsvond. “Dan kun je er redelijk zeker van zijn dat de data minimale vervuiling bevat.”

Schone data kunnen machtsfactor worden

Het opschonen van data is lastig, denkt Chiodo. Verplicht labelen van AI-gegenereerde data is eigenlijk ondoenlijk en labels zijn ook weer makkelijk te verwijderen. In ieder geval is het opschonen een zeer kostbare aangelegenheid.

Toegang tot schone data kan daarom straks een machtsfactor worden als alleen grote gevestigde organisaties en overheden over grote hoeveelheden bronnen van voor 2022 beschikken.

Generatieve AI veroorzaakt in 2027 stroomtekort in datacenters, voorspelt Gartner

De grote energiebehoefte van genAI dreigt binnen enkele jaren de algemene beschikbaarheid van elektriciteit te verstoren.

1 min 1

Achtergrond genAI-hype PRO

Microsoft en Meta zetten zwaar in op AI-gegenereerde code

CEO Nadella claimt dat nu al tot 30% van Microsofts code door AI is geschreven. Meta-CEO Zuckerberg wil in 2026 50% halen voor zijn bedrijf.

3 min

Blog Datamanagement

Durf datakwaliteit een rapportcijfer te geven

Niet alle data zijn goud

1 min

Generatieve AI veroorzaakt in 2027 stroomtekort in datacenters, voorspelt Gartner

De grote energiebehoefte van genAI dreigt binnen enkele jaren de algemene beschikbaarheid van elektriciteit te verstoren.

1 min 1

Achtergrond genAI-hype PRO

Microsoft en Meta zetten zwaar in op AI-gegenereerde code

CEO Nadella claimt dat nu al tot 30% van Microsofts code door AI is geschreven. Meta-CEO Zuckerberg wil in 2026 50% halen voor zijn bedrijf.

3 min

Blog Datamanagement

Durf datakwaliteit een rapportcijfer te geven

Niet alle data zijn goud

1 min

Waar staat de digitale werkplek van de overheid nu?

Gemeenten en het Rijk aan tafel over de digitale werkplek: dezelfde knelpunten, ander tempo, en lessen uit het cloudnieuws van deze zomer.

3 min

Meer whitepapers

Whitepaper Security Partner

De 10 verplichte zorgplichtmaatregelen van de Cyberbeveiligingswet uitgelegd

De 10 verplichte zorgplichtmaatregelen van de Cyberbeveiligingswet waar Nederlandse organisaties aan moeten voldoen.

Whitepaper Security Partner

NIS 2-richtlijn uitgelegd: een uitgebreide gids voor compliance

Ben je compliant met de NIS 2-richtlijn? Hier vind je een uitgebreide gids over de NIS 2-richtlijn die je helpt dit te realiseren.

Whitepaper Netwerken Partner

Van traditioneel netwerkbeheer naar AI aangestuurde infrastructuur

Ontdek hoe self-driving netwerken zorgen voor controle, eenvoud en toekomstbestendigheid.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bewaar data voor ze door AI vervuild raken

Modellen kunnen ten onder gaan aan vervuilde data

Schone data kunnen machtsfactor worden

Generatieve AI veroorzaakt in 2027 stroomtekort in datacenters, voorspelt Gartner

Microsoft en Meta zetten zwaar in op AI-gegenereerde code

Durf datakwaliteit een rapportcijfer te geven

Generatieve AI veroorzaakt in 2027 stroomtekort in datacenters, voorspelt Gartner

Microsoft en Meta zetten zwaar in op AI-gegenereerde code

Durf datakwaliteit een rapportcijfer te geven

Waar staat de digitale werkplek van de overheid nu?

De 10 verplichte zorgplichtmaatregelen van de Cyberbeveiligingswet uitgelegd

NIS 2-richtlijn uitgelegd: een uitgebreide gids voor compliance

Van traditioneel netwerkbeheer naar AI aangestuurde infrastructuur

Reacties

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen: