De dichter die je chatbot hackte

Een recent wetenschappelijk artikel liet iets opvallends zien. Door schadelijke verzoeken in de vorm van gedichten te gieten, konden onderzoekers bij 62 tot 90 procent van de AI-modellen de veiligheidsmaatregelen omzeilen. Filters zijn namelijk getraind op schadelijke prompts in proza, en zodra dezelfde intentie in rijm of metaforen verschijnt, herkennen ze het niet.

Erik de Ruiter is consultant strategisch en toepasbare AI bij Highberg. Meer van deze auteur

Vrouw staart in gedachten over haar laptop naar buiten — © Shutterstock

Dit voorbeeld illustreert een bredere kwetsbaarheid, bekend als prompt injection, die elke organisatie die AI koppelt aan de buitenwereld serieus moet nemen. Prompt injection werkt simpel. Een externe actor stuurt verborgen instructies mee die het AI-systeem uitvoert alsof ze van de organisatie zelf komen. Het probleem is dat een AI-agent zonder duidelijke beperkingen niet weet wie zijn echte baas is. Hij voert uit wat de input zegt en als die van buiten komt, wordt de buitenwereld plotseling je systeembeheerder.

Drie maatregelen die het verschil maken

Gelukkig zijn er concrete stappen die organisaties kunnen zetten, en die ook buiten het beveiligingsvraagstuk hun waarde bewijzen.

De eerste stap is het logisch beperken van de toegang van AI-systemen. Een AI mag alleen toegang hebben tot de data en systemen die strikt nodig zijn voor de uitvoering van zijn taak. Koppel je bijvoorbeeld een chatbot aan je CRM, dan krijgt deze alleen leesrechten en geen schrijfrechten. Zo kan hij geen e-mails versturen, geen bestanden openen en geen processen starten. Hoe kleiner het aanvalsoppervlak, hoe beperkter de schade als er iets misgaat.

De tweede stap is wat ik een ‘luchtsluis’ noem. Werk je met een pipeline van AI-agents, dan kan het waardevol zijn om een tweede model de output van het eerste te laten controleren voordat deze verder gaat in de workflow. De eerste chatbot formuleert een antwoord op een verzoek, de tweede kijkt na of dat antwoord geen ongewenste instructies bevat of uitvoert. Twee ogen zien meer dan één, ook als het geen menselijke ogen zijn.

De derde stap is organisatorisch en misschien wel de belangrijkste. Richt je bedrijfsprocessen AI-first in. Dat betekent dat je vooraf in kaart brengt hoe AI je processen, data en systemen raakt. Zo wordt je implementatie succesvoller en wordt meteen duidelijk waar security extra aandacht nodig heeft.

Het kat-en-muisspel stopt niet

Er is geen moment waarop dit vraagstuk opgelost is. De aanvalstechnieken worden slimmer, de modellen worden robuuster, en dan begint de cyclus opnieuw. Dat betekent niet dat je moet wachten met AI omarmen, integendeel. Maar het betekent wel dat wie AI koppelt aan de buitenwereld, dat bewust en gestructureerd moet doen. Niet als technisch project, maar als organisatievraagstuk.

De dichter die je chatbot hackt, bestaat echt. De vraag is of jij hem al hebt uitgenodigd.