E-mail bijna onbeveiligbaar doelwit voor hacks met prompt injection
E-mails zelf lezen? Dat laat je door generatieve AI doen. Deze kan er makkelijk een samenvatting van maken en zelfs op reageren zonder dat jij ook maar een woord hoeft te typen. Maar daar zit ook een toenemend gevaar in, want de hulpvaardige kunstmatige intelligentie kan onopgemerkt taken van kwaadwillenden vervullen.

Een onderzoeker toonde dit met een eenvoudig voorbeeld aan binnen Gmail dat in combinatie met Gemini samenvattingen kan maken van e-mails. Hij verzond een mail met een verborgen tekst (grootte '0', in de kleur wit en met maximale transparantie) waarin hij een 'admin'-taak had verwerkt. Een taak als deze wordt door Gemini met hoge prioriteit opgepakt en uitgevoerd. In dit geval bevatte deze taak een vrij onschuldig opdracht om een vooraf bepaalde tekst in de samenvatting te plaatsen.
In de test kreeg de AI de opdracht om een tekst in de getoonde samenvatting te plaatsen waarin stond vermeld dat Gemini had ontdekt dat het Gmail-account in kwestie gehackt was en dat de gebruiker een telefoonnummer moest bellen om het op te lossen.
Makkelijk te onderscheppen?
Nu lijkt het op het eerste gezicht vrij eenvoudig om aanvallen als deze te onderscheppen. Dit soort teksten zouden door de AI gefilterd kunnen worden. Bijvoorbeeld door extreem kleine en transparante alinea's niet te lezen of te negeren.
Zoals je waarschijnlijk wel kunt bedenken, is een oplossing als deze maar een van korte termijn. Kwaadwillenden zouden mails bijvoorbeeld ook grijs kunnen maken, waarop ze de prompt injectie in dezelfde grijs weergeven. En dan misschien niet helemaal transparant en op het kleinste lettertype, maar net iets groter. Met andere woorden: het wordt een race tussen de filters van de AI in kwestie en de vaardigheden van het digitale dievengilde om deze te blijven omzeilen.
Grotere schaal
Omdat er in dit geval een relatief domme e-maillezende AI eenvoudig wordt misbruikt, is het niet ondenkbaar dat dit ook bij grotere, geautomatiseerde met e-mail werkende systemen kan gebeuren. Zeker als deze in toenemende mate met soortgelijke kunstmatige intelligenties gaan opereren.
Dit alles maakt dat deze manier van een AI iets laten uitvoeren zonder dat de gebruiker het doorheeft, enorm lastig af te vangen is. Het lijkt erop dat het daarmee een van de grotere problemen van een toekomst met AI-hulpjes wordt.
Gelukkig zijn ook de AI-makers op de hoogte van de gevaren van prompt injecties. Ze werken actief aan het ondervangen van dit probleem, waardoor hun AI's in veel gevallen dit soort aanvallen uit zichzelf al negeren. Dat gebeurt nu al omdat deze bijvoorbeeld opvalt doordat de injectie niet bij de context van de rest van de tekst past of juist omdat hij - zoals in bovenstaand voorbeeld - voorzien is van een specifieke code.
Tegelijk toont hetzelfde voorbeeld aan dat dit nog lang niet in alle gevallen werkt.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee