Overslaan en naar de inhoud gaan

'Bit flip'-aanval kan gedrag AI-model ongemerkt veranderen

Onderzoekers van de George Mason University waarschuwen in een recent gepresenteerd rapport voor een sluipende kwetsbaarheid in AI‑systemen. Met een simpele 'bit flip' (het omzetten van één binaire waarde in de opgeslagen modelgewichten) kan een aanvaller een verborgen achterdeur inbouwen. Hierdoor werkt het AI-model ogenschijnlijk normaal, maar geeft hij bij specifieke inputs foutieve, door de aanvaller gewenste uitkomsten.

Vrouw met code op gezicht
ThisIsEngineering/Pexels

In hedendaagse AI draaien beslissingen miljarden zogenaamde 'gewichten': numerieke parameters die bepalen hoe neurale netwerken waardes doorgeven en interpreteren. Die gewichten zijn uiteindelijk opgeslagen als bits. En daar zit een risico.

Dat blijkt uit onderzoek van de George Mason University. Het blijkt dat door gericht slechts één bit te flippen een backdoor gemaakt kan worden. Dit terwijl het gedrag en de prestaties van het model ongewijzigd blijven, zodat controles niets verdachts zien. Het geflipte bit kan wel de interpretatie van het hele AI-model beïnvloeden.

Schaal en subtiliteit

Het verschil met eerdere aanvallen is schaal en subtiliteit. Waar klassieke “patch attacks” één specifiek iets manipuleren, kan een bit flip volgens de onderzoekers een universele aanpassing veroorzaken. Hierdoor kan één bepaalde waarde consistent een aangepaste en door de kwaadwillende gewenste interpretatie krijgen. Dat maakt de aanval geschikt voor scenario’s met hoge veiligheidsrisico’s.

De voorbeelden zijn concreet. In een fintech‑systeem kan een malafide wijziging ertoe leiden dat “Transfer $10” wordt gelezen als “Transfer $10,000”. In identiteitsherkenning kan een gezichtsbeeld van de CEO als toegangsticket werken voor andere personen. Volgens de onderzoekers is de aanval “particularly stealthy”: het model blijft op benchmarks goed scoren, waardoor standaard kwaliteitscontrole het probleem niet ziet.

Hoe te verdedigen?

Verdedigen blijkt lastig. Aanbevelingen omvatten het regelmatig inspecteren van modelgewichten en het inzetten van redundantie: twee identieke modellen parallel draaien en verschillen vergelijken om een mogelijke infiltratie te detecteren. Die aanpak kent grenzen. Wie één gewicht controleert, kan een andere gemist hebben; effectiviteit hangt af van de frequentie van checks en brengt kosten, false positives en operationele complexiteit met zich mee.

Hardwarematige maatregelen kunnen helpen, maar zijn niet zaligmakend. Spontaan ontstane bitflips kunnen met conventionele methodes opgelost worden, maar als de flip het gevolg is van een doelgerichte aanval met voldoende privileges of een wijziging in permanente opslag (bijvoorbeeld in modelbestanden), is dit niet langer toereikend.

AI-governance gaat nog verder dan gedacht

Voor organisaties betekent dit dat AI‑governance verder moet gaan dan modelprestatie alleen. Integriteitsbewaking (hashing en signering van modelartefacten), streng toegangsbeheer, runtime‑monitoring op anomalieën in outputs, en gescheiden omgevingen voor kritieke inferentie worden belangrijker. Ook helpt het om “known‑good” referentiemodellen periodiek te herladen en cryptografisch te verifiëren, zodat ongeziene wijzigingen worden gesignaleerd

De studie onderstreept dat AI‑beveiliging niet alleen over data en prompts gaat, maar ook over de onderliggende bits die modellen vormen. Een enkel omgezet bit kan voldoende zijn om chaos te veroorzaken, juist omdat het systeem verder normaal oogt. Wie AI inzet in veiligheid‑kritische omgevingen, zal integriteit en detectie van subtiele modelwijzigingen tot speerpunt moeten maken—want betrouwbaarheid begint, letterlijk, bij het bit.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in