Overslaan en naar de inhoud gaan

Het gebruik van AI als hacktool is overhyped

Nieuw onderzoek toont aan dat de meeste LLM's niet in staat zijn om one-day kwetsbaarheden te misbruiken, zelfs niet als ze de CVE-beschrijving krijgen.

De offensieve potentie van populaire grote taalmodellen (LLM's) is op de proef gesteld in een nieuw onderzoek waaruit bleek dat GPT-4 het enige model was dat levensvatbare exploits kon schrijven voor een reeks CVE's. Het artikel van onderzoekers van de University of Illinois Urbana-Champaign testte een reeks populaire LLM's, waaronder OpenAI's GPT-3.5 en GPT-4, plus toonaangevende opensource-agents van Mistral AI, Hugging Face en Meta.

De AI-agents kregen een lijst met 15 kwetsbaarheden, variërend qua ernst van medium tot kritiek, om te testen hoe succesvol de LLM's autonoom exploitcode konden schrijven voor CVE's. De onderzoekers maakten een specifieke prompt om de beste resultaten van de modellen te krijgen, die de agent aanmoedigde om niet op te geven en zo creatief mogelijk te zijn met zijn oplossing.

Alleen GPT-4

Tijdens de test kregen de agents toegang tot web browsing-elementen, een terminal, zoekresultaten, het maken en bewerken van bestanden en een code-interpreter. Uit de resultaten van het onderzoek bleek dat GPT-4 het enige model was dat in staat was om met succes een exploit te schrijven voor een van de one-day kwetsbaarheden, met een succespercentage van 86,7%.

De auteurs merkten op dat ze geen toegang hadden tot GPT-4's commerciële rivalen zoals Claude 3 van Anthropic of Google's Gemini 1.5 Pro en waren dus niet in staat om hun prestaties te vergelijken met die van OpenAI's vlaggenschip GPT-4.

De onderzoekers stelden dat de resultaten de "mogelijkheid van een opkomende capaciteit" in LLM's aantonen om one-day kwetsbaarheden uit te buiten, maar ook dat het vinden van de kwetsbaarheid zelf een moeilijkere taak is dan het uitbuiten ervan.

GPT-4 was volgens het onderzoek zeer capabel wanneer het een specifieke kwetsbaarheid kreeg om uit te buiten. Met meer mogelijkheden, waaronder betere planning, grotere reactiegroottes en het gebruik van subagenten, zou het nog capabeler kunnen worden, aldus de onderzoekers.

Toen de agent een Astrophy RCE-exploit kreeg die was gepubliceerd na de sluitingsdatum van GPT-4's kennis, was hij nog steeds in staat om code te schrijven die met succes misbruik maakte van de kwetsbaarheid, ondanks het ontbreken ervan in de trainingsdataset. Het verwijderen van CVE-beschrijvingen belemmert GPT-4's blackhat-mogelijkheden aanzienlijk.

Beperkte potentie nu

Hoewel GPT-4's capaciteit voor kwaadwillig gebruik door hackers zorgwekkend lijkt, blijft de offensieve potentie van LLM's volgens het onderzoek vooralsnog beperkt, omdat zelfs het model volledige toegang tot de CVE-beschrijving nodig had voordat het een levensvatbare exploit kon maken. Zonder dit had GPT-4 slechts een succespercentage van 7%.

Deze zwakte werd verder onderstreept toen uit het onderzoek bleek dat GPT-4 weliswaar in 33% van de gevallen in staat was om de juiste kwetsbaarheid te identificeren, maar dat het vermogen om de zwakke plek te misbruiken zonder verdere informatie beperkt was: Van de met succes gedetecteerde kwetsbaarheden was GPT-4 slechts in staat om er één te misbruiken.

Bovendien testten de onderzoekers hoeveel acties de agent ondernam met en zonder de CVE-beschrijving. Het gemiddelde aantal acties verschilde slechts 14%, wat de auteurs wijten aan de lengte van het contextvenster van het model.

'Nog geen effectievere aanvallen'

In een gesprek met ITPro zei Yuval Wollmanvoorzitter van securitybedrijf CyberProof, dat ondanks de groeiende interesse van cybercriminelen in de offensieve mogelijkheden van AI-chatbots hun effectiviteit op dit moment beperkt blijft. "De stijging, met honderden procentpunten, in discussies over ChatGPT op het dark web laat zien dat er iets aan de hand is, maar of het wordt vertaald in effectievere aanvallen? Nog niet."

Wollman zei dat het offensieve potentieel van AI-systemen vaststaat, waarbij hij verwees naar eerdere simulaties van de AI-malware BlackMamba, maar stelde dat de volwassenheid van deze tools nog niet zodanig is dat ze op grotere schaal kunnen worden toegepast door dreigingsactoren.

Wapenwedloop in cybersecurity

Uiteindelijk denkt Wollman dat AI een grote invloed zal hebben op de voortdurende wapenwedloop tussen bedreigingsactoren en beveiligingsprofessionals, maar beweert dat het op dit moment nog te vroeg is om die vraag te beantwoorden. "De grote vraag zou zijn hoe de genAI-revolutie en de nieuwe mogelijkheden en engines die nu op het dark web worden besproken, deze wapenwedloop zouden beïnvloeden. Ik denk dat het nog te vroeg is om die vraag te beantwoorden."

Bron: ITProPortal. Dit artikel is AI-vertaald.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in