Nieuws Artificial Intelligence

6 september 2021 leestijd 1 minuut 0 reacties

De 'verboden woorden' van GitHub Copilot gekraakt

Een nieuwsgierige informaticus heeft langs een zijweg de lijst van 'verboden woorden' achterhaald die de AI-functie van GitHub hanteert. Naast scheldwoorden staan ook politiek beladen termen op de zwarte lijst van GitHub Copilot. Voor het ontdekken hiervan is een flinke GPU-kraakoperatie uitgevoerd.

Jasper Bakker

Jasper BakkerredacteurMeer van deze auteur

github — © GitHub

GitHub

'Israel' staat op gelijke voet met 'Palestine', 'communist', 'liberal', 'socialist' en een flinke reeks harde scheldwoorden. Universitair docent Brendan Dolan-Gavitt van de NYU Tandon School of Engineering heeft via Githubs extensie voor Visual Studio Code de lijst van woorden achterhaald die developers niet mogen gebruiken. De extensie voor Microsofts ontwikkelpakket koppelt die software aan de Copilot-dienst.

Extensie voor Visual Studio Code

De Microsoft-extensie is geschreven in JavaScript en bevat een lijst aan hashes die worden gecontroleerd door GitHub Copilot. Die door Microsoft overgenomen online-dienst voor software-ontwikkeling vergelijkt de input van developers met deze lijst van versleutelde woorden. De vergelijking wordt gedaan zowel vóór weergave op het scherm als ook voor de inhoudelijke functie van codesuggesties.

Dolan-Gavitt heeft de lijst van versleutelde woorden uit de extensie gehaald en er enkele kraakmethodes - plus optimalisaties - op los gelaten. Daarbij heeft hij grafische processors ingezet om de hashes te vergelijken met een woordenlijst afkomstig van de beruchte forumsite 4chan. Ook heeft de wetenschapper een plugin geschreven die aanhaakt op wachtwoordenkraaktool John the Ripper, meldt The Register.

Geen aanstoot geven

Zo is een lijst van 854.653 mogelijke lettercombinaties ontstaan die vervolgens zijn gereduceerd naar 1170 daadwerkelijke woorden. Deze woorden worden door GitHub geweerd wat betreft input voor zijn AI-aangedreven pair-programming dienst. Vooraf heeft het bedrijf al wel aangegeven dat Copilot, wat nu als technische preview beschikbaar is, filters heeft om aanstootgevende woorden te verwijderen.

After scoring the 854,653 solutions found by the CUDA hash cracker using GPT-2, I believe we have solved another two of the remaining slurs - the highlighted word and its plural! (The scores here are log-probabilities) pic.twitter.com/ccM34nIwkR
— Brendan Dolan-Gavitt (@moyix) September 2, 2021

Gerelateerde artikelen

Nieuws Artificial Intelligence

Code 'inspreken' dankzij AI

AI-taalmodel zet Engelse spraak om in softwarecode.

Nieuws Artificial Intelligence

Ingebruikname code flink versneld doordat DevOps-teams meer AI inzetten

Veel bedrijven melden meer dan tienvoudige versnelling in onderzoek.

Nieuws Artificial Intelligence

Amazon laat klanten met AI code controleren

CodeGuru geeft ontwikkelaars advies om de kwaliteit van hun code te verbeteren.

Nieuws Development

Visual Studio gebruikt GitHub-AI voor betere code-analyse

Visual Studio 2019 analyseert ook private GitHub-repositories om zijn code-analysehulp te verbeteren.

Gerelateerde artikelen

Code 'inspreken' dankzij AI

Nieuws Artificial Intelligence

Code 'inspreken' dankzij AI

AI-taalmodel zet Engelse spraak om in softwarecode.

Ingebruikname code flink versneld doordat DevOps-teams meer AI inzetten

Nieuws Artificial Intelligence

Ingebruikname code flink versneld doordat DevOps-teams meer AI inzetten

Veel bedrijven melden meer dan tienvoudige versnelling in onderzoek.

Amazon laat klanten met AI code controleren

Nieuws Artificial Intelligence

Amazon laat klanten met AI code controleren

CodeGuru geeft ontwikkelaars advies om de kwaliteit van hun code te verbeteren.

Visual Studio gebruikt GitHub-AI voor betere code-analyse

Nieuws Development

Visual Studio gebruikt GitHub-AI voor betere code-analyse

Visual Studio 2019 analyseert ook private GitHub-repositories om zijn code-analysehulp te verbeteren.

Gerelateerde artikelen

Blog kwaliteit, agile Partner

Kwaliteit in Agile - naar strategische pijler

Agile werken draait om snelheid, flexibiliteit en klantwaarde. Maar in de praktijk blijkt dat kwaliteit vaak het onderspit delft.

Blog informatiebeheerplan Partner

Waarom IT-strategieën falen zonder een solide informatiebeheerplan

Organisaties investeren volop in technologie, maar vergeten vaak het fundament: informatiebeheer.

Achtergrond ESIM veiliger mobiel IT-beleid Partner

Waarom eSIM bijdraagt aan een veiliger mobiel IT-beleid

De verschuiving van fysieke simkaarten naar eSIM is al enkele jaren gaande, maar krijgt sinds kort echt vaart.

Meer whitepapers

Whitepaper Security Partner

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

De samenvoegingen van IT en fysieke beveiliging begon jaren geleden, maar hoe staat het er nu voor met deze ontwikkeling?

Whitepaper Artificial Intelligence Partner

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

Whitepaper Marketing Partner

High impact business stories creëren

De route naar de zakelijke beslisser.

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee