Overslaan en naar de inhoud gaan

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

Dat AI-makers auteursrechten hebben overtreden bij het trainen van hun modellen, mag duidelijk zijn. Het probleem is alleen dat het lastig te bewijzen is. Maar daar komt mogelijk snel verandering in, want onderzoekers van Carnegie Mellon University hebben een nieuwe methode ontwikkeld waarmee het mogelijk wordt om gestolen content naar boven te halen in AI-chatbots.

Dief/hacker
Mikhail Nilov/Pexels

Onderzoekers presenteren een nieuwe methode om te achterhalen of AI-chatbots zijn getraind op jouw teksten. De agentische aanpak, RECAP geheten, kan uit grote taalmodellen doelgericht passages reproduceren. Daarmee komt een langgekoesterde wens van uitgevers, auteurs en toezichthouders dichterbij: inzicht in wat modellen hebben geïnternaliseerd.

AI-agents op zoek naar de content

Het onderzoek is afkomstig van wetenschappers van Carnegie Mellon University, Instituto Superior Técnico/INESC-ID en Hydrox AI. Zij beschrijven in een voorpublicatie van hun werk hoe RECAP met een iteratieve feedbackloop werkt. Het systeem probeert eerst een fragment te ontlokken en laat daarna een tweede agent het resultaat beoordelen en bijsturen. Daarbij wordt expliciet vermeden om het doelpassage zelf in de prompt te zetten, om vervuiling van de proef te voorkomen.

Als AI-makers hun weigeren te delen, blijft onduidelijk wat er in modellen zit. Bestaande technieken, zoals het zogenoemde 'prefix-probing', botsen bovendien op veiligheidsrichtlijnen. Modellen weigeren steeds vaker direct te citeren, zelfs uit publiek domein. RECAP herformuleert verzoeken wanneer zo’n weigering optreedt en komt via meerdere rondes alsnog tot een betere extractie.

Overtreden van auteursrecht bewijzen is eigenlijk maar bijzaak

Volgens hoofdauteur André V. Duarte is het wetenschappelijke doel breder dan alleen auteursrecht. Het team wil begrijpen hoe letterlijke en bijna-letterlijke memorisatie ontstaat, ongeacht de herkomst van de data. Tegelijk maakt juist het voorbeeld van recente, beschermde werken de maatschappelijke relevantie tastbaar. Als een model passages uit een hedendaags boek kan reproduceren, is dat een signaal over de gebruikte trainingsbronnen.

Om aan te geven hoe krachtig RECAP is, gaven de onderzoekers een eenvoudig voorbeeld: in één demonstratie werden circa 3.000 passages uit het eerste Harry Potter-boek gereconstrueerd met Claude-3.7. Een eerder baseline-experiment kwam niet verder dan 75.

De aanpak is rekentechnisch zwaar, maar blijkt modeloverstijgend te werken. Door de agentische loop geeft het model niet één keer antwoord, maar verfijnt het zichzelf telkens. Eerder werk liet al zien dat een eerste reactie zelden de meest complete is. RECAP systematiseert dat inzicht en maakt het reproduceerbaar. 

AI-makers zien de bui al hangen

De timing is opvallend. In september trof Anthropic, de maker van Claude, een schikking van minimaal 1,5 miljard dollar in auteursrechtzaken van schrijvers. Tools die beter zichtbaar maken wat modellen kunnen reproduceren, zullen de discussie over transparantie en naleving verder voeden.

Een andere grote, nog steeds lopende zaak is gaande tussen de New York Times en OpenAI. De eerste beschuldigd de laatste ervan niet alleen content te stelen, maar ook toegang te verlenen to afgeschermde content door deze te reproduceren op vraag van de gebruiker. Daarmee zou het verdienmodel van de krant onderuitgehaald worden. In deze zaak is een groot struikelblok het gebrek aan bewijs dat de content van de NYT in de modellen van OpenAI zijn verwerkt. Daarom wordt nu bijvoorbeeld gevraagd om inzicht te krijgen in duizenden verdachte gebruikersinteracties, wat weer de nodige privacy-gevoelige problemen met zich meebrengt.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in