Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen
Dat AI-makers auteursrechten hebben overtreden bij het trainen van hun modellen, mag duidelijk zijn. Het probleem is alleen dat het lastig te bewijzen is. Maar daar komt mogelijk snel verandering in, want onderzoekers van Carnegie Mellon University hebben een nieuwe methode ontwikkeld waarmee het mogelijk wordt om gestolen content naar boven te halen in AI-chatbots.
Onderzoekers presenteren een nieuwe methode om te achterhalen of AI-chatbots zijn getraind op jouw teksten. De agentische aanpak, RECAP geheten, kan uit grote taalmodellen doelgericht passages reproduceren. Daarmee komt een langgekoesterde wens van uitgevers, auteurs en toezichthouders dichterbij: inzicht in wat modellen hebben geïnternaliseerd.
AI-agents op zoek naar de content
Het onderzoek is afkomstig van wetenschappers van Carnegie Mellon University, Instituto Superior Técnico/INESC-ID en Hydrox AI. Zij beschrijven in een voorpublicatie van hun werk hoe RECAP met een iteratieve feedbackloop werkt. Het systeem probeert eerst een fragment te ontlokken en laat daarna een tweede agent het resultaat beoordelen en bijsturen. Daarbij wordt expliciet vermeden om het doelpassage zelf in de prompt te zetten, om vervuiling van de proef te voorkomen.
Als AI-makers hun weigeren te delen, blijft onduidelijk wat er in modellen zit. Bestaande technieken, zoals het zogenoemde 'prefix-probing', botsen bovendien op veiligheidsrichtlijnen. Modellen weigeren steeds vaker direct te citeren, zelfs uit publiek domein. RECAP herformuleert verzoeken wanneer zo’n weigering optreedt en komt via meerdere rondes alsnog tot een betere extractie.
Overtreden van auteursrecht bewijzen is eigenlijk maar bijzaak
Volgens hoofdauteur André V. Duarte is het wetenschappelijke doel breder dan alleen auteursrecht. Het team wil begrijpen hoe letterlijke en bijna-letterlijke memorisatie ontstaat, ongeacht de herkomst van de data. Tegelijk maakt juist het voorbeeld van recente, beschermde werken de maatschappelijke relevantie tastbaar. Als een model passages uit een hedendaags boek kan reproduceren, is dat een signaal over de gebruikte trainingsbronnen.
Om aan te geven hoe krachtig RECAP is, gaven de onderzoekers een eenvoudig voorbeeld: in één demonstratie werden circa 3.000 passages uit het eerste Harry Potter-boek gereconstrueerd met Claude-3.7. Een eerder baseline-experiment kwam niet verder dan 75.
De aanpak is rekentechnisch zwaar, maar blijkt modeloverstijgend te werken. Door de agentische loop geeft het model niet één keer antwoord, maar verfijnt het zichzelf telkens. Eerder werk liet al zien dat een eerste reactie zelden de meest complete is. RECAP systematiseert dat inzicht en maakt het reproduceerbaar.
AI-makers zien de bui al hangen
De timing is opvallend. In september trof Anthropic, de maker van Claude, een schikking van minimaal 1,5 miljard dollar in auteursrechtzaken van schrijvers. Tools die beter zichtbaar maken wat modellen kunnen reproduceren, zullen de discussie over transparantie en naleving verder voeden.
Een andere grote, nog steeds lopende zaak is gaande tussen de New York Times en OpenAI. De eerste beschuldigd de laatste ervan niet alleen content te stelen, maar ook toegang te verlenen to afgeschermde content door deze te reproduceren op vraag van de gebruiker. Daarmee zou het verdienmodel van de krant onderuitgehaald worden. In deze zaak is een groot struikelblok het gebrek aan bewijs dat de content van de NYT in de modellen van OpenAI zijn verwerkt. Daarom wordt nu bijvoorbeeld gevraagd om inzicht te krijgen in duizenden verdachte gebruikersinteracties, wat weer de nodige privacy-gevoelige problemen met zich meebrengt.

Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee