Google wil robots zelf Python-code laten schrijven

Google heeft een nieuwe aanpak gedeeld om robots aan te sturen, waarbij de robots zelf code schrijven die ze met de wereld laten interacteren. Het werk bouwt voort op het PaLM-SayCan-model van Google voor robots en op het taalmodel GPT-3 van OpenAI.

Eveline MeijerRedacteurMeer van deze auteur

Wie robots aan wil sturen, programmeert ze meestal zo dat ze objecten detecteren, commando's kunnen verwerken en feedback loops kunnen gebruiken. Maar het opnieuw programmeren van beleid voor iedere nieuwe taak kost veel tijd, signaleren onderzoeksstagair Jacky Liang en robotica-onderzoeker Andy Zeng van Google in een blogbericht. "Wat als robots aan de hand van instructies van mensen autonoom hun eigen code kunnen schrijven om te interacteren met de wereld?"

Zelf Python-code schrijven

Dat blijkt best mogelijk te zijn, zo ontdekten de onderzoekers. De laatste generatie taalmodellen - zoals PaLM - is volgens Google in staat om complexe redeneringen te doen en is ook op basis van miljoenen regels code getraind. Code schrijven aan de hand van instructies van mensen behoort dan ook zeker tot de opties, zo werd vorig jaar al duidelijk bij GPT-3. Maar volgens Google kunnen dit soort systemen dus ook zelf code schrijven die de acties van robots kunnen aansturen. Deze nieuwe aanpak noemt Google "Code as Policies".

Om dit mogelijk te maken, worden taalmodellen getraind met uitgeschreven voorbeeldinstructies en de bijbehorende code. Na het trainen kunnen mensen een taalmodel een geschreven instructie geven, waarna het taalmodel helemaal zelf nieuwe Python-code genereerd om de instructie uit te voeren. Die code kan bijvoorbeeld API calls opnieuw samenstellen en nieuwe functies synthetiseren.

De onderzoekers gaven een robot bijvoorbeeld de opdracht om blokken in een vierkant neer te leggen of om een hexagon van 5 centimeter te tekenen. Maar het kan ook uitgebreidere instructies verwerken. Zo werd tijdens één experiment de opdracht gegeven om te wachten tot er een ei ligt. Zodra dat ei er ligt, moet het naar het groene bord verplaatst worden.

Toekomst van robots?

Volgens Google is Code as Policies een volgende stap naar robots die hun eigen gedrag kunnen aanpassen en hun eigen mogelijkheden verder kunnen uitbreiden. Toch heeft het systeem nog diverse grenzen. Zo kunnen complexe instructies als "bouw een huis met blokken" niet verwerkt worden, omdat het taalmodel geen 3D-referenties heeft. Bovendien zijn er nog weinig taalmodellen die bijvoorbeeld begrijpen of kunnen zien of een oppervlak hobbelig is. Dergelijke parameters kunnen dan ook nog niet worden meegegeven in de instructies.

Daarnaast kan de flexibiliteit die Code as Policies geeft ook risico's met zich meebrengen, aangezien "gesynthetiseerde programma's kunnen resulteren in onverwacht gedrag met fysieke hardware", aldus de onderzoekers.

Alle code die nodig is om de experimenten van de Google-onderzoekers te reproduceren is beschikbaar gesteld op de website van het project. Daar staat ook een interactieve, gesimuleerde robotdemo op.