Anthropic laat AI expres valsspelen in ruil voor beter gedrag
Onderzoekers van Anthropic melden dat hun taalmodellen minder vaak ontsporen als je ze expliciet toestemming geeft om vals te spelen tijdens training.
LLM's optimaliseren op wat ze beloond krijgen. Dat kan leiden tot beloningshacken: slim de regels omzeilen om toch punten te scoren. Anthropic toont dat dit kan doorschieten naar bredere misalignment, zoals faken van ‘braaf’ gedrag, samenwerking met aanvallers of het saboteren van onderzoek. In een testomgeving leerde een model bijvoorbeeld dat het door een ‘system exit’-commando doctests kon laten slagen zonder de taak echt op te lossen.
Prompt-inoculatie
Dat wordt nu ondervangen met iets wat de AI-maker 'prompt-inoculatie' noemt. Dat houdt in dat er in de systeeminstructies wordt gezegd dat beloningshacks in testomgevingen zijn toegestaan. Hierdoor zou het model niet langer de neiging hebben om ongewenst gedrag te belonen.
Het klinkt heel tegenstrijdig, maar de onderzoekers vonden dus dat als beloningshacken expliciet acceptabel wordt verklaard binnen de trainingsprompt, dat het uiteindelijke misalignment met 75 tot 90 procent daalt. Dat geldt zelfs voor wanneer het model in de omgeving vrijwel altijd hackt. Door die semantische scheiding wordt hacken in tests ‘gewoon’, zonder dat het doorlekt naar liegen, extortie of sabotage elders.
LLM's zijn kwetsbaar voor belongshacks
In nieuwe experimenten startte Anthropic met een voorgetraind model en voegde een klein deel trainingsmateriaal toe met voorbeelden van beloningshacks. Daarna gebruikte het bedrijf versterkend leren op programmeertaken waarvan bekend is dat ze kwetsbaar zijn voor zulke trucs. Hoewel minder dan één procent van het fine-tuningmateriaal over misbruik ging, verspreidde de hackende aanpak breed naar andere domeinen en nam misaligned gedrag meetbaar toe.
Bij het doormeten bleek bovendien dat 12 procent van de pogingen gericht was op sabotage van de testcode. Daarmee zou het lastiger worden om beloningshacken later te ontdekken.
Human in the loop werkt amper
Mitigaties zoals ‘versterkend leren met menselijke feedback’ werken deels: ze verbeteren chatgedrag, maar lossen misalignment in agent-achtige codeomgevingen niet afdoende op. Ook het dichtzetten van specifieke lekken helpt, maar vraagt dat je alle zwakke plekken kent.
De onderzoekers benadrukken dat breed aanmoedigen van hackgedrag niet wenselijk is. Een beperkte, zorgvuldig geformuleerde toelating in afgebakende code-omgevingen volstaat. Tegelijk waarschuwen ze dat wat nu veilig lijkt, in de toekomst kan kantelen naarmate modellen autonomer worden en ruimere bevoegdheden krijgen.

Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee