AI-'vangrails' van Nvidia makkelijk te omzeilen met datalekken tot gevolg

Nvidia presenteerde vorige maand een hulpmiddel om gevoelige informatie veilig te combineren met verschillende openbare large language models (LLM's). De barrière die dit hulpmiddel creëert, blijkt eenvoudig te omzeilen, waardoor datalekken ontstaan. Het is een waarschuwing aan developers voor het gebruik van dit type chatbots.

Thijs DoorenboschMeer van deze auteur

Het hulpmiddel dat Nvidia ontwikkelde - NeMo Framework - is bedoeld voor ontwikkelaars die bijvoorbeeld bezig zijn met chatbots voor de klantenservice. Maar het hulpmiddel kan ook worden ingezet bij het bouwen van een app voor mensen die op zoek zijn naar advies op het gebied van hun gezondheid. Het LLM dat wordt ingezet voor het creëren van een vlot lopende chat, krijgt geen toegang tot gevoelige informatie.

'Vangrails' zijn om te buigen

Het Nemo Framework creëert zogeheten vangrails die het LLM instructies geven om de veiligheid te garanderen. Nu blijkt dat die instructies makkelijk zijn te veranderen, ontdekte Ars Technica op basis van een onderzoek van Robust Intelligence, een IT-beveiliger in San Francisco.

De onderzoekers vonden in een paar uur tijd niet één, maar verschillende manieren om het systeem flink te laten hallucineren. In sommige gevallen was het simpel om het Nvidia-systeem een 'I' in een 'J' te laten veranderen en daarmee kon allerlei tot op de persoon herleidbare informatie uit het systeem gehaald worden. Zelfs in het voorbeeld dat Nvidia zelf aanhaalt als voorbeeld voor het gebruik van het NeMo Framework ging het mis. Het hulpmiddel zou het LLM moeten beperken tot antwoorden in een discussie over een arbeidsmarktrapport, maar in plaats daarvan kwam gezondheidsinformatie van Hollywoodsterren naar boven en kon de chatbot informatie oplepelen over de Frans-Pruisische oorlog.

Meer dan een incident

Zoals Ars Technica bespreekt met de CEO van Robust Intelligence is dit een probleem waar leveranciers en klanten de komende jaren mee te maken gaan krijgen, want Nvidia zal niet het enige bedrijf zijn dat uitglijders maakt met het vercommercialiseren van op zich veelbelovende AI-toepassingen. Het probleem dat een LLM zijn instructies vergeet, is een probleem dat al jaren bestaat en heel moeilijk blijkt op te lossen. Het is voor de ontwikkelaars van dit soort chatapp-toepassingen dan ook uiterst belangrijk dat ze veiligheid en privacybescherming als het uitgangspunt nemen bij het ontwerp en niet als punt waar pas in de afrondingsfase naar wordt gekeken.

Nvidia heeft inmiddels aan Robust Intelligence laten weten een van de problemen waardoor de lekken ontstonden te hebben opgelost. Het bedrijf verweert zich met het argument dat het gaat om 'een startpunt voor het bouwen van AI-gebaseerde chatbots'. De software is als opensourcesoftware aan de ontwikkelaarsgemeenschap ter beschikking gesteld om ervaring op te doen, feedback te geven en "de stappen te identificeren die gezet moeten worden om een toepassing in productie te nemen."

Nvidia staat nu erg in de belangstelling omdat de grafische chips die het bedrijf maakt op dit moment het meest geschikt zijn voor de parallelle verwerking die AI-toepassingen mogelijk maken.