Development

De 'verboden woorden' van GitHub Copilot gekraakt
Welke woorden niet mogen van GitHubs AI-assistent.
Welke woorden niet mogen van GitHubs AI-assistent.
Een nieuwsgierige informaticus heeft langs een zijweg de lijst van 'verboden woorden' achterhaald die de AI-functie van GitHub hanteert. Naast scheldwoorden staan ook politiek beladen termen op de zwarte lijst van GitHub Copilot. Voor het ontdekken hiervan is een flinke GPU-kraakoperatie uitgevoerd.
'Israel' staat op gelijke voet met 'Palestine', 'communist', 'liberal', 'socialist' en een flinke reeks harde scheldwoorden. Universitair docent Brendan Dolan-Gavitt van de NYU Tandon School of Engineering heeft via Githubs extensie voor Visual Studio Code de lijst van woorden achterhaald die developers niet mogen gebruiken. De extensie voor Microsofts ontwikkelpakket koppelt die software aan de Copilot-dienst.
Extensie voor Visual Studio Code
De Microsoft-extensie is geschreven in JavaScript en bevat een lijst aan hashes die worden gecontroleerd door GitHub Copilot. Die door Microsoft overgenomen online-dienst voor software-ontwikkeling vergelijkt de input van developers met deze lijst van versleutelde woorden. De vergelijking wordt gedaan zowel vóór weergave op het scherm als ook voor de inhoudelijke functie van codesuggesties.
Dolan-Gavitt heeft de lijst van versleutelde woorden uit de extensie gehaald en er enkele kraakmethodes - plus optimalisaties - op los gelaten. Daarbij heeft hij grafische processors ingezet om de hashes te vergelijken met een woordenlijst afkomstig van de beruchte forumsite 4chan. Ook heeft de wetenschapper een plugin geschreven die aanhaakt op wachtwoordenkraaktool John the Ripper, meldt The Register.
Geen aanstoot geven
Zo is een lijst van 854.653 mogelijke lettercombinaties ontstaan die vervolgens zijn gereduceerd naar 1170 daadwerkelijke woorden. Deze woorden worden door GitHub geweerd wat betreft input voor zijn AI-aangedreven pair-programming dienst. Vooraf heeft het bedrijf al wel aangegeven dat Copilot, wat nu als technische preview beschikbaar is, filters heeft om aanstootgevende woorden te verwijderen.
After scoring the 854,653 solutions found by the CUDA hash cracker using GPT-2, I believe we have solved another two of the remaining slurs - the highlighted word and its plural! (The scores here are log-probabilities) pic.twitter.com/ccM34nIwkR
— Brendan Dolan-Gavitt (@moyix) September 2, 2021
Techjournalist, ICT-kenner en contentproducent bij AG Connect.