Development

Software-ontwikkeling
Robot

IBM automatiseert softwareontwikkeling vergaand met AI

Enorme dataset als training voor neurale netwerken.

© Shutterstock
25 mei 2021

Enorme dataset als training voor neurale netwerken.

IBM heeft onder de noemer Project CodeNet een dataset geïntroduceerd met 14 miljoen blokjes code met de bedoeling neurale netwerken te kunnen trainen in het schrijven van code.

De dataset van Project CodeNet (pdf) bestaat in totaal uit 500 miljoen regels code geschreven in 55 verschillende programmeertalen, signaleert Venturebeat. Aan de blokjes is veel annotatie toegevoegd, zoals de programmeertaal waarin is geschreven, de computertijd die verwerking kost, errortypes en de datum van toevoeging aan de dataset.

Het is niet de bedoeling van IBM om het werk van ontwikkelaars overbodig te maken. Het doel is meer hen het standaardwerk uit handen te nemen zodat ze zich meer kunnen toeleggen op interessantere taken.

ImageNet revisited?

De code is verzameld uit inzendingen van bijna 4000 codeerwedstrijden. Er zitten zowel goede als foutieve oplossingen uit de wedstrijden in. De Naam CodeNet is een knipoog naar ImageNet, de bekende databank met vele miljoenen afbeeldingen waarmee - met beeldherkenning voorop - de nieuwe golf aan AI-toepassingen is begonnen.

Een van de toepassingen die IBM ziet, is het vertalen van de software van de ene in de andere taal, bijvoorbeeld om legacytoepassingen te verjongen zodat een nieuwe generatie ontwikkelaars er makkelijker mee aan de slag kan. Ook kan de dataset worden gebruikt om nieuwe testsoftware te trainen die vervolgens kan worden ingezet om te scannen op veelvoorkomende fouten.

 

Lees meer over Development OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.