Development

Artificial Intelligence
GitHub

De 'verboden woorden' van GitHub Copilot gekraakt

Welke woorden niet mogen van GitHubs AI-assistent.

© GitHub
6 september 2021

Welke woorden niet mogen van GitHubs AI-assistent.

Een nieuwsgierige informaticus heeft langs een zijweg de lijst van 'verboden woorden' achterhaald die de AI-functie van GitHub hanteert. Naast scheldwoorden staan ook politiek beladen termen op de zwarte lijst van GitHub Copilot. Voor het ontdekken hiervan is een flinke GPU-kraakoperatie uitgevoerd.

'Israel' staat op gelijke voet met 'Palestine', 'communist', 'liberal', 'socialist' en een flinke reeks harde scheldwoorden. Universitair docent Brendan Dolan-Gavitt van de NYU Tandon School of Engineering heeft via Githubs extensie voor Visual Studio Code de lijst van woorden achterhaald die developers niet mogen gebruiken. De extensie voor Microsofts ontwikkelpakket koppelt die software aan de Copilot-dienst.

Extensie voor Visual Studio Code

De Microsoft-extensie is geschreven in JavaScript en bevat een lijst aan hashes die worden gecontroleerd door GitHub Copilot. Die door Microsoft overgenomen online-dienst voor software-ontwikkeling vergelijkt de input van developers met deze lijst van versleutelde woorden. De vergelijking wordt gedaan zowel vóór weergave op het scherm als ook voor de inhoudelijke functie van codesuggesties.

Dolan-Gavitt heeft de lijst van versleutelde woorden uit de extensie gehaald en er enkele kraakmethodes - plus optimalisaties - op los gelaten. Daarbij heeft hij grafische processors ingezet om de hashes te vergelijken met een woordenlijst afkomstig van de beruchte forumsite 4chan. Ook heeft de wetenschapper een plugin geschreven die aanhaakt op wachtwoordenkraaktool John the Ripper, meldt The Register.

Geen aanstoot geven

Zo is een lijst van 854.653 mogelijke lettercombinaties ontstaan die vervolgens zijn gereduceerd naar 1170 daadwerkelijke woorden. Deze woorden worden door GitHub geweerd wat betreft input voor zijn AI-aangedreven pair-programming dienst. Vooraf heeft het bedrijf al wel aangegeven dat Copilot, wat nu als technische preview beschikbaar is, filters heeft om aanstootgevende woorden te verwijderen.

Lees meer over Development OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.