Brits NCSC waarschuwt voor promptinjection-aanvallen bij generatieve AI

Het Britse National Cyber Security Centre (NCSC) waarschuwt dat er groeiende risico's zijn rondom mensen die chatbots manipuleren met promptinjection-aanvallen. Dergelijke aanvallen kunnen voor andere cyberaanvallen, scams en datadiefstal zorgen.

Eveline Meijer Redacteur Meer van deze auteur

Een man zit op zijn telefoon. Boven de telefoon staat een chatgesprek afgebeeld. — © Shutterstock

Prompt injection is een aanvalsmethode waarbij een gebruiker input of een prompt geeft, die specifiek bedoeld is om een taalmodel zich op onbedoelde manier te laten gedragen.

In de praktijk is al een paar keer aangetoond dat dit inderdaad kan: een student van Stanford kon prompt injection gebruiken om de initiële prompt van Bing Chat te vinden, waarmee wordt bepaald hoe de chatbot met zijn gebruikers omgaat. Beveiligingsonderzoeker Johann Rehberger heeft daarnaast ChatGPT zo ver gekregen om op indirecte prompts te reageren. Concreet kon hij ChatGPT toegang geven tot transcripten van YouTube, die op hun beurt weer voor nieuwe promptinjection-kwetsbaarheden zorgden.

Nu taalmodellen steeds meer gebruikt worden om ook data door te geven naar apps en diensten van derde partijen, groeit het risico van prompt injection, waarschuwt het Britse NCSC nu, zo schrijft The Guardian. Door chatbots te manipuleren kunnen cybercriminelen bijvoorbeeld data stelen, scams uitvoeren of verdere aanvallen uitvoeren.

Security first

Het NCSC benadrukt wel dat geen enkel taalmodel in isolatie draait, maar altijd onderdeel is van een groter systeem. En zo'n systeem kan vanaf de start met security in het achterhoofd ontworpen worden. "Door je bewust te zijn van de risico's rondom het machinelearningcomponent, kunnen we het systeem op zo'n manier ontwerpen dat het misbruik van kwetsbaarheden niet tot catastrofale problemen leidt", aldus de organisatie.

"Een eenvoudig voorbeeld is het toepassen van op regels gebaseerd systeem bovenop het machinelearningmodel, om te voorkomen dat het schadelijke acties onderneemt, zelfs als het een prompt krijgt om dat wel te doen."

OWASP Top 10

Het Open Worldwide Application Security Project (OWASP) deelde onlangs ook een top tien met meest voorkomende beveiligingsfouten in grote taalmodellen. En ook OWASP ziet prompt injection als risico, net als DoS-aanvallen en supplychainkwetsbaarheden. In de OWASP Top Tien deelt de organisatie ook tips hoe deze risico's beperkt of zelfs weggenomen kunnen worden.