Nieuws Artificial Intelligence

2 uur geleden leestijd 2 minuten 0 reacties

Anthropic laat AI expres valsspelen in ruil voor beter gedrag

Onderzoekers van Anthropic melden dat hun taalmodellen minder vaak ontsporen als je ze expliciet toestemming geeft om vals te spelen tijdens training.

Lees ook: Doe mee aan de Salary Survey 2025 en maak kans op een LEGO Gameboy!

Redactie AG ConnectMeer van deze auteur

LLM's optimaliseren op wat ze beloond krijgen. Dat kan leiden tot beloningshacken: slim de regels omzeilen om toch punten te scoren. Anthropic toont dat dit kan doorschieten naar bredere misalignment, zoals faken van ‘braaf’ gedrag, samenwerking met aanvallers of het saboteren van onderzoek. In een testomgeving leerde een model bijvoorbeeld dat het door een ‘system exit’-commando doctests kon laten slagen zonder de taak echt op te lossen.

Prompt-inoculatie

Dat wordt nu ondervangen met iets wat de AI-maker 'prompt-inoculatie' noemt. Dat houdt in dat er in de systeeminstructies wordt gezegd dat beloningshacks in testomgevingen zijn toegestaan. Hierdoor zou het model niet langer de neiging hebben om ongewenst gedrag te belonen.

Het klinkt heel tegenstrijdig, maar de onderzoekers vonden dus dat als beloningshacken expliciet acceptabel wordt verklaard binnen de trainingsprompt, dat het uiteindelijke misalignment met 75 tot 90 procent daalt. Dat geldt zelfs voor wanneer het model in de omgeving vrijwel altijd hackt. Door die semantische scheiding wordt hacken in tests ‘gewoon’, zonder dat het doorlekt naar liegen, extortie of sabotage elders.

LLM's zijn kwetsbaar voor belongshacks

In nieuwe experimenten startte Anthropic met een voorgetraind model en voegde een klein deel trainingsmateriaal toe met voorbeelden van beloningshacks. Daarna gebruikte het bedrijf versterkend leren op programmeertaken waarvan bekend is dat ze kwetsbaar zijn voor zulke trucs. Hoewel minder dan één procent van het fine-tuningmateriaal over misbruik ging, verspreidde de hackende aanpak breed naar andere domeinen en nam misaligned gedrag meetbaar toe.

Bij het doormeten bleek bovendien dat 12 procent van de pogingen gericht was op sabotage van de testcode. Daarmee zou het lastiger worden om beloningshacken later te ontdekken.

Human in the loop werkt amper

Mitigaties zoals ‘versterkend leren met menselijke feedback’ werken deels: ze verbeteren chatgedrag, maar lossen misalignment in agent-achtige codeomgevingen niet afdoende op. Ook het dichtzetten van specifieke lekken helpt, maar vraagt dat je alle zwakke plekken kent.

De onderzoekers benadrukken dat breed aanmoedigen van hackgedrag niet wenselijk is. Een beperkte, zorgvuldig geformuleerde toelating in afgebakende code-omgevingen volstaat. Tegelijk waarschuwen ze dat wat nu veilig lijkt, in de toekomst kan kantelen naarmate modellen autonomer worden en ruimere bevoegdheden krijgen.

Verzekeraars weigeren de risico's van AI-agents te dekken

Steeds meer verzekeraars weigeren dekking bij implementaties van AI-agents of -chatbots, vanwege de moeilijk in te schatten risico's.

2 min

Achtergrond Diefstal

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

Onderzoekers hebben een manier gevonden waarop AI-chatbots gestolen content naar boven kunnen halen.

2 min

Blog GenAI

De uitdaging van GenAI? Niet de technologie

De oorzaak van het uitblijven van grootschalige impact ligt zelden bij de technologie zelf.

3 min

Achtergrond Bevestiging

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

Onderzoekers van Omni Calculator en Europese universiteiten presenteerden ORCA, een test met 500 rekenkundige vragen uit praktijkdomeinen.

3 min

Verzekeraars weigeren de risico's van AI-agents te dekken

Steeds meer verzekeraars weigeren dekking bij implementaties van AI-agents of -chatbots, vanwege de moeilijk in te schatten risico's.

2 min

Achtergrond Diefstal

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

Onderzoekers hebben een manier gevonden waarop AI-chatbots gestolen content naar boven kunnen halen.

2 min

Blog GenAI

De uitdaging van GenAI? Niet de technologie

De oorzaak van het uitblijven van grootschalige impact ligt zelden bij de technologie zelf.

3 min

Achtergrond Bevestiging

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

Onderzoekers van Omni Calculator en Europese universiteiten presenteerden ORCA, een test met 500 rekenkundige vragen uit praktijkdomeinen.

3 min

KnowBe4-onderzoek: gepersonaliseerde phishing-e-mails van interne afzenders of bekende merken meest succesvol

Phishing blijft evolueren, maar één ding verandert nauwelijks.

2 min

Nieuws Phishing, KnowBe4 Partner

Quantum Route Redirect: nieuwe aanvalstool stroomlijnt wereldwijde phishingcampagnes

Onderzoekers van KnowBe4 hebben een wereldwijde phishingcampagne ontdekt die gebruikmaakt van een nieuwe en geavanceerde aanvalstool.

2 min

Achtergrond Cyberveiligheid Partner

Is de cyberveiligheid van een hybride auto belangrijk?

Moderne auto's zijn rijdende computers vol sensoren en software. Dat is handig, maar roept ook vragen op: hoe digitaal kwetsbaar zijn ze?

2 min

Meer whitepapers

Whitepaper Security Partner

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

De samenvoegingen van IT en fysieke beveiliging begon jaren geleden, maar hoe staat het er nu voor met deze ontwikkeling?

Whitepaper Marketing Partner

High impact business stories creëren

De route naar de zakelijke beslisser.

Whitepaper Artificial Intelligence Partner

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Anthropic laat AI expres valsspelen in ruil voor beter gedrag

Prompt-inoculatie

LLM's zijn kwetsbaar voor belongshacks

Human in the loop werkt amper

Verzekeraars weigeren de risico's van AI-agents te dekken

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

De uitdaging van GenAI? Niet de technologie

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

Verzekeraars weigeren de risico's van AI-agents te dekken

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

De uitdaging van GenAI? Niet de technologie

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

KnowBe4-onderzoek: gepersonaliseerde phishing-e-mails van interne afzenders of bekende merken meest succesvol

Quantum Route Redirect: nieuwe aanvalstool stroomlijnt wereldwijde phishingcampagnes

Is de cyberveiligheid van een hybride auto belangrijk?

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

High impact business stories creëren

The challenge of information asymmetry

Reacties

Bevestig jouw e-mailadres

Er is iets mis gegaan

Maak een gratis account aan en geniet van alle voordelen:

Maak een gratis account aan en geniet van alle voordelen:

Anthropic laat AI expres valsspelen in ruil voor beter gedrag

﻿Prompt-inoculatie

﻿LLM's zijn kwetsbaar voor belongshacks﻿

Human in the loop werkt amper

Verzekeraars weigeren de risico's van AI-agents te dekken

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

De uitdaging van GenAI? Niet de technologie

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

Verzekeraars weigeren de risico's van AI-agents te dekken

Er komt een manier om uit te vinden wat AI-chatbots van je hebben gestolen

De uitdaging van GenAI? Niet de technologie

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

KnowBe4-onderzoek: gepersonaliseerde phishing-e-mails van interne afzenders of bekende merken meest succesvol

Quantum Route Redirect: nieuwe aanvalstool stroomlijnt wereldwijde phishingcampagnes

Is de cyberveiligheid van een hybride auto belangrijk?

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

High impact business stories creëren

The challenge of information asymmetry

Reacties

Prompt-inoculatie

LLM's zijn kwetsbaar voor belongshacks