AI-agents die computers overnemen zorgen voor risico's - deze moet je weten

OpenAI maakte het afgelopen donderdag mogelijk voor ChatGPT om taken te vervullen door een computer over te nemen.
Het bedrijf is niet de eerste die een dergelijke AI-agent lanceert, maar claimt wel de beveiliging op orde te hebben.
Toch is het heel goed om te weten welke soorten gevaren er aan dit soort AI-agents kleven
Lees ook: OpenAI wil ChatGPT echt nuttig maken en gaat concurrentie met Office-apps aan

Redactie AG Connect Meer van deze auteur

Afgelopen donderdag maakte OpenAI het mogelijk voor ChatGPT om computers over te nemen. Daarmee verandert de AI-maker de AI-chatbot in een AI-agent die niet alleen kan chatten, maar ook daadwerkelijk taken kan vervullen. Toch is dat niet zonder gevaar, zoals ook OpenAI erkent.

Een LLM die van zichzelf al niet helemaal foutloos kan werken, de controle geven over een computer en diens bestanden om zelfstandig taken uit te voeren, lijkt uitermate handig. Zoals OpenAI in de introductieblog van ChatGPT Agent aangeeft, zou je de technologie kunnen vragen: "plan en koop ingrediënten om een Japans ontbijt voor vier personen te maken“ en ”analyseer drie concurrenten en maak een slideshow".

Klinkt allemaal even onschuldig als handig, maar zelfs bij deze simpele taken schuilen grote gevaren. En hoewel OpenAI aangeeft de beveiliging van zijn eigen AI-agent op orde te hebben, is het toch goed te weten welke gevaren het gebruik van een Agent als deze met zich mee kan brengen.

We zetten er enkele voor je op een rij:

1. Toegang tot data

Het meest voor de hand liggende risico is dat je er rekening mee moet houden dat de AI zichzelf toegang kan verschaffen tot alle data op de computer die hij overneemt. Het kan dus zijn dat hij vertrouwelijke informatie leest en gebruikt zonder dat je hier expliciet goedkeuring voor hebt gegeven.

In dit geval zegt OpenAI dat het geen data van de Agent gebruikt en dus ook niet online verspreid kan worden via de Chatbot. Gezien het verleden, zetten we daar toch de vraagtekens bij.

2. Houdt rekening met onverwachte acties van de bot

Een voorbeeld hiervan verscheen vorig jaar toen een AI agent onbedoeld een computer onbruikbaar maakte. CEO Buck Shlegeris van AI-onderzoeksbedrijf Redwood Research, gaf een AI-agent opbracht om een connectie te maken met zijn PC. Iets wat de bot keurig deed, maar die ging vervolgens in al zijn enthousiasme verder en paste de nodige dingen in het systeem aan waardoor de PC in kwestie niet meer opstartte.

Betrek je dit tot het eerste punt, dan moet je er rekening mee houden dat de AI-agent onverwachte en onlogische aanpassingen in bestaande bestanden en data kan maken zonder dat je daarvan op de hoogte bent.

3. Prompt-injectie via malafide en verborgen informatie op websites

Als je een AI-agent een taak laat uitvoeren waarbij het nodig is om een of meerdere websites op het internet te bezoeken, dan brengt dat letterlijk ongeziene risico's met zich mee. Het is al bekend dat kwaadwillenden via verborgen data op websites de werking van AI-chatbots proberen te beïnvloeden als ze worden opgenomen als trainingsdata, maar het wordt ook steeds meer gemeengoed om dit directer te doen.

AI's die websites bezoeken kunnen namelijk via verborgen prompt-injecties van het pad gebracht worden en heel andere taken gaan uitvoeren, zoals het verspreiden of installeren van malware.

De meeste makers van AI-agents zeggen dat de bots hier redelijk ongevoelig voor zijn. OpenAI geeft aan dat ChatGPT Agent 99,5 procent van dit soort commando's niet opvolgt, maar uit onderzoek blijkt dat dit percentage eerder op de 95 procent ligt.

4. Interactie met andere Agents

Hoewel AI-agents dus relatief goed beveiligd zijn tegen ongeziene malafide praktijken via interactie met websites, is dat niet het geval als ze met andere AI-agents omgaan. Uit onderzoek blijkt namelijk dat minder dat bijna 95 procent van de AI-agents klakkeloos opdrachten van andere Agents aanneemt en uitvoert. Het gaat hierbij ook om opdrachten die via andere manieren wel door de AI-agent genegeerd zouden worden.

5. Hallucinaties

Ook bij AI-agents blijven hallucinaties een probleem. De onderliggende LLM kan nog steeds niet voor de volle 100 procent op accuraatheid vertrouwd worden, wat betekent dat het uitvoeren van taken ook mogelijk niet helemaal naar wens zal gebeuren.

Bij een AI-agent kan dit tot grotere problemen leiden dan je wellicht zou denken. Als er bij de eerste stap van de taak al een hallucinatie heeft plaatsgevonden, gaat de rest van de taak in toenemende mate fout met alle onvoorspelbare risico's van dien.

Dit zijn nog maar enkele voorbeelden van risico's waarvan we weten dat ze bestaan. Nu AI-agents vaker voorkomen en meer toegang krijgen tot de wereld om ons heen, is het lastig om te bepalen welke risico's er nog meer zullen ontstaan.

Tot nu toe hebben we vooral te maken gehad met gecontroleerde omgevingen en tot een bepaalde hoogte vrijgelaten AI's die daarin relatief gestructureerde opdrachten mochten uitvoeren. En zelfs dan worden de onderzoekers getrakteerd op resultaten die ze niet hadden zien aankomen.

Een van de recentste voorbeelden hiervan is Anthropic die AI-chatbot Claude de opdracht gaf om als Agent een snoepmachine te beheren. Naast het feit dat de AI hierin keihard faalde, beweerde hij ook dat hij fysiek met een door hem verzonnen mens had gesproken op een adres dat overeenkwam met een adres uit The Simpsons.