Overslaan en naar de inhoud gaan

Anthropic laat AI expres valsspelen in ruil voor beter gedrag

Onderzoekers van Anthropic melden dat hun taalmodellen minder vaak ontsporen als je ze expliciet toestemming geeft om vals te spelen tijdens training.

LLM's optimaliseren op wat ze beloond krijgen. Dat kan leiden tot beloningshacken: slim de regels omzeilen om toch punten te scoren. Anthropic toont dat dit kan doorschieten naar bredere misalignment, zoals faken van ‘braaf’ gedrag, samenwerking met aanvallers of het saboteren van onderzoek. In een testomgeving leerde een model bijvoorbeeld dat het door een ‘system exit’-commando doctests kon laten slagen zonder de taak echt op te lossen.

Prompt-inoculatie

Dat wordt nu ondervangen met iets wat de AI-maker 'prompt-inoculatie' noemt. Dat houdt in dat er in de systeeminstructies wordt gezegd dat beloningshacks in testomgevingen zijn toegestaan. Hierdoor zou het model niet langer de neiging hebben om ongewenst gedrag te belonen.

Het klinkt heel tegenstrijdig, maar de onderzoekers vonden dus dat als beloningshacken expliciet acceptabel wordt verklaard binnen de trainingsprompt, dat het uiteindelijke misalignment met 75 tot 90 procent daalt. Dat geldt zelfs voor wanneer het model in de omgeving vrijwel altijd hackt. Door die semantische scheiding wordt hacken in tests ‘gewoon’, zonder dat het doorlekt naar liegen, extortie of sabotage elders.

LLM's zijn kwetsbaar voor belongshacks

In nieuwe experimenten startte Anthropic met een voorgetraind model en voegde een klein deel trainingsmateriaal toe met voorbeelden van beloningshacks. Daarna gebruikte het bedrijf versterkend leren op programmeertaken waarvan bekend is dat ze kwetsbaar zijn voor zulke trucs. Hoewel minder dan één procent van het fine-tuningmateriaal over misbruik ging, verspreidde de hackende aanpak breed naar andere domeinen en nam misaligned gedrag meetbaar toe.

Bij het doormeten bleek bovendien dat 12 procent van de pogingen gericht was op sabotage van de testcode. Daarmee zou het lastiger worden om beloningshacken later te ontdekken. 

Human in the loop werkt amper

Mitigaties zoals ‘versterkend leren met menselijke feedback’ werken deels: ze verbeteren chatgedrag, maar lossen misalignment in agent-achtige codeomgevingen niet afdoende op. Ook het dichtzetten van specifieke lekken helpt, maar vraagt dat je alle zwakke plekken kent.

De onderzoekers benadrukken dat breed aanmoedigen van hackgedrag niet wenselijk is. Een beperkte, zorgvuldig geformuleerde toelating in afgebakende code-omgevingen volstaat. Tegelijk waarschuwen ze dat wat nu veilig lijkt, in de toekomst kan kantelen naarmate modellen autonomer worden en ruimere bevoegdheden krijgen.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in