Zo leert AI iets waar mens nog nooit aan dacht

Deep Mind heeft voor het eerst in meer dan tien jaar een verbetering aangebracht aan sorteercode. Het bedrijf gebruikte daarvoor een aanpak waarmee het ook de spraakmakende AI-spelers maakte die zelfs wereldkampioenen in Schaak en Go laten zweten.

Thijs DoorenboschMeer van deze auteur

surprised worried — © Shutterstock

Shutterstock

De meeste deeplearning-algoritmen zijn tot nog toe ontwikkeld door neurale netwerken te trainen op enorme hoeveelheden voorbeelden die door mensen zijn gemaakt. Dat heeft tot gevolg dat ze nooit iets kunnen bedenken wat niet al eens door mensen is bedacht. DeepMind heeft voor het trainen van de bekende game-algoritmen een andere strategie ontwikkeld. De ontwikkelaars laten de AI-spelers tegen zichzelf spelen, zonder dat daar voorbeelden van wedstrijden die door mensen zijn gespeeld aan te pas komen. Daar blijken verrassende tactieken uit te komen waar menselijke spelers nog niet aan hebben gedacht.

DeepMind zet deze strategie ook in voor het ontwikkelen van algoritmen die niets met games te maken hebben. En ook daar kwamen opmerkelijke resultaten uit. Het bedrijf is er voor het eerst in meer dan tien jaar in geslaagd een verbetering aan te brengen in sorteeralgoritmen, meldt Ars Technica dat refereert aan een artikel in Nature. Het maken van sorteeralgoritmen is een klassiek probleem. Er zijn vele manieren om het te doen en dat maakt het ook een geliefd onderwerp voor docenten van eerstejaars programmeerklassen. Maar inmiddels zijn de beste manieren wel boven komen drijven. Bijvoorbeeld het sorteeralgorime in de C++ library in combinatie met de LLVM-compiler is al ruim tien jaar ongewijzigd, memoreert Ars Technica.

Heel efficiënt code schrijven

Maar DeepMind brengt daar nu verandering in. Door het genereren van code tot een game-omgeving te maken, introduceren de onderzoekers creativiteit in het proces waar nieuwe oplossingsrichtingen uit volgen. Het spelelement, waarmee ze het algoritme aan de gang zetten, is de latency van gegenereerde code dat als score-element wordt geïntroduceerd. Door het systeem - AlphaDev - de latency te laten minimaliseren, ontstaat na vele cycli van reinforcement learning een algoritme dat heel compacte efficiënte code kan schrijven.

Een onderdeel van deze aanpak is dat het systeem tijdens het evalueren van de latency van de door hetzelfde systeem gegenereerde code, een goede manier moet hebben om de resultaten te sorteren en de variaties in de code te detecteren die voor die verschillen verantwoordelijk zijn. Bovendien varieert de efficiency van de code tussen verschillende typen hardware waar de code op draait. DeepMind heeft daarom AlphaDev ook een sorteeralgoritme laten maken dat met een groot aantal variabelen kan omgaan met een zeer hoge efficiëntie. De details van de methode legt DeepMind uit in het Nature-artikel.