Innovatie & Strategie

Artificial Intelligence
DNA

Nieuwe techniek verbetert evolutie in AI

Nieuw framework traint AI met complexe virtuele omgeving en reinforcement learning. 

29 oktober 2021

Nieuw framework traint AI met complexe virtuele omgeving en reinforcement learning. 

Kunstmatige intelligentie (AI) loopt op een belangrijk onderdeel nog achter op mensen: waar mensen evolueren en zo nieuwe dingen ontwikkelen, doet een AI dat niet. Daarmee is de flexibiliteit van AI gelimiteerd. Een nieuwe techniek van wetenschappers van de Stanford University moet hier verbetering in brengen. 

In de natuur evolueren lichamen en hersenen van levende wezens samen, aan de hand van talloze mutaties. Daardoor worden zenuwstelsels, lichaamsdelen en andere vaardigheden ontwikkeld die het dier helpen te overleven. Denk aan vleermuizen, die via sonar kunnen navigeren in donkere gebieden. Of vogels die gevoelig zijn voor het aardmagnetisch veld en op die manier hun weg naar het zuiden kunnen vinden. 

Maar AI-systemen ontwikkelen zich niet op die manier. Vaak worden verschillende elementen die nodig zijn apart ontwikkeld en in een later stadium samengebracht. Daardoor zijn AI-systemen weinig flexibel en leveren ze vaak maar een beperkte variëteit aan resultaten. De nieuwe techniek 'deep evolutionary reinforcement learning' (DERL) die wetenschappers van Stanford University hebben ontwikkeld moet helpen deze uitdagingen te overkomen, schrijft Venturebeat

Evolutie in AI

DERL gebruikt een complexe virtuele omgeving en reinforcement learning om virtuele agents te maken die zowel hun fysieke structuur als hun leermogelijkheden kunnen evolueren. Deep reinforcement learning is een vorm van machine learning waarbij software zelf dingen leert aan de hand van zijn eigen fouten. In het DERL-framework gebruiken agents deze techniek zodat zij de vaardigheden die ze nodig hebben om hun doelen te bereiken aanleren. Het framework gebruikt daarnaast darwinistische evolutie om in de virtuele ruimte naar optimale oplossingen te zorgen.

Deze aanpak zorgt ervoor dat niet de aangeleerde parameters, maar alleen de fysieke en architecturale eigenschappen van AI-agents - samen met kleine mutaties -  doorgegeven worden aan de volgende generatie. In het onderzoek kregen agents in een virtuele omgeving bijvoorbeeld een genotype die bepaalde hoeveel ledematen en gewrichten het heeft. Het directe nageslacht van een agent erft het genotype van de ouder, maar kan via kleine mutaties nieuwe ledematen aanmaken of juist ledematen verwijderen. Daarnaast kan een agent kleine aanpassingen doen, bijvoorbeeld aan het formaat van een ledemaat. 

De agents moesten vervolgens zo ver mogelijk in de virtuele ruimte reizen. Hoe beter de fysieke structuur van een agent geschikt is om over verschillende soorten terrein te reizen, hoe sneller de agent leert om zijn ledematen te gebruiken om te bewegen.

Diverse set aan resultaten

Interessant aan het DERL-framework is dat hierdoor verschillende resultaten ontstonden. Bij andere methodes voor evolutionaire AI-systemen worden alle fysieke onderdelen én de geleerde vaardigheden doorgegeven aan de volgende agent. Maar in DERL wordt alleen de morfologische data doorgegeven, waardoor er diverse sets aan succesvolle agents ontstaan, bijvoorbeeld agents met vier benen en geen armen of agents met maar twee benen.

Het systeem laat daarnaast trekken van het Baldwin-effect zien, wat suggereert dat sneller lerende agents een grote waarschijnlijkheid hebben om zich te reproduceren en hun genen door te geven aan de volgende generatie. En het DERL-framework valideert de hypothese dat complexere omgevingen ook tot intelligentere agents leiden, aldus het onderzoek. 

De onderzoekers zelf menen dat DERL de deur opent naar grootschalig onderzoek "om inzicht te krijgen in hoe leren en evolutie samen geavanceerde relaties kunnen creëren tussen omgevingscomplexiteit, morfologische intelligentie en de leerbaarheid van controletaken". 

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.