Microsoft: De taken van het red team veranderen ingrijpend door komst AI

Microsoft is al sinds 2018 bezig met het ontwikkelen van methoden om de specifieke gevaren van de komst van kunstmatige intelligentie in kaart te brengen. Bedrijven moeten voor een AI Red Team veel meer uit de kast halen dan op het bordje van een 'regulier' red team ligt, concludeert het bedrijf.

Thijs Doorenboschis freelance journalist en tekstschrijver. Hij was meer dan dertig jaar vaste redacteur bij AG Connect (voorheen AutomatiseringGids) Meer van deze auteur

Een red team is een essentieel onderdeel van een development team als een bedrijf veilige software wil ontwikkelen. Maar de taken van een red team veranderen als in de software kunstmatige intelligentie wordt verwerkt, schetst Microsoft in een blog waarin het bedrijf de ervaringen van de afgelopen vijf jaar bundelt.

Responsible AI

Een van de nieuwe taken die een AI red team moet oppakken naast het zoeken naar beveiligingsproblemen, is nagaan of het systeem ook schadelijke content kan produceren. Het red team is dus ook verantwoordelijk voor het opleveren van responsible AI.

Microsoft geeft bovendien als algemene waarschuwing dat het red team kunstmatige intelligentie moet testen op het niveau van zowel het onderliggende model - dus bijvoorbeeld GPT 4 - als op het niveau van de applicatie waarin het model werkzaam is. Dat geeft beter inzicht in veiligheidsmechanismen die op de specifieke niveau's actief zijn.
Microsoft geeft verder vijf tips:

Het red team krijgt dus een breder takenpakket

De AI red team krijgt een paraplufunctie voor zowel beveiliging als specifieke AI-problematiek, zoals prompt injection en poisoning. Daarbij horen ook het beoordelen of de software zich niet schuldig maakt aan schending van de 'eerlijkheidsprincipes' zoals bijvoorbeeld stereotypering, of aan het produceren van schadelijke content zoals verheerlijking van geweld.

Red teams moeten zich richten op zowel kwaadwillende als reguliere personas

Niet alleen kwaadwillenden kunnen een AI-systeem manipuleren om schadelijke content te produceren. Ook een nietsvermoedende gebruiker kan het systeem onbewust naar een verkeerd pad leiden. Dus waar het red team zich voorheen uitsluitend op de mindset van kwaadwillenden kon richten, moet nu de gedachtengang van een breder scala aan personas worden gevolgd.

AI systemen veranderen in de tijd

Traditionele systemen blijven in principe ongewijzigd na oplevering, op enkele updates na. Als er gebruik gemaakt wordt van een AI-model, moet het red team er rekening mee houden dat het model in de tijd verandert door training. Het AI red team moet dus periodiek ook al eenmaal in productie genomen systemen opnieuw beoordelen.

Een AI model geeft niet steeds hetzelfde antwoord

Klassieke software geeft bij het twee keer invoeren van dezelfde input, ook twee keer dezelfde output. Een AI-model geeft steeds een antwoord dat op dat moment waarschijnlijk het meest accuraat is (probablistisch). Dat betekent dat het invoeren van dezelfde input op twee verschillende momenten, ook verschillende antwoorden kan opleveren. Het AI red team moet daarop bedacht zijn en tests dus meer keer uitvoeren, ook al levert de eerste keer een bevredigend resultaat.

Inperken van AI-fouten vergt een gelaagde aanpak

In zekere zin lijkt dit advies op het verweer van traditionele software tegen bijvoorbeeld phishing door de host af te schermen met mechanismen om op een slimme manier malafide URL's te identificeren. Zo moeten ook AI-risico's op dieper niveau worden afgevangen met bijvoorbeeld classifiers die potentieel schadelijke content een vlag meegeven om zo 'drift' in conversaties binnen gestelde limieten te houden.