Overslaan en naar de inhoud gaan

Onderzoek: AI-agents kunnen slechts 3 procent van het freelancerwerk vervangen

AI wordt vaak gepresenteerd als vervanger van kantoorwerk, maar de Remote Labor Index van Scale AI en het Center for AI Safety, toont een ander beeld. In tests met echte online klussen wist de beste AI‑agent minder dan 3 procent van het werk af te ronden. 

Developer
Shutterstock.com

De onderzoekers van Scale AI en het Center for AI Safety (CAIS), die zich beide bezighouden met het in kaart brengen van het kunnen van AI,  bedachten een nieuwe testmethode waarmee het inzichtelijk werd wat AI-agents nu daadwerkelijk kunnen, meldt Wired.

Om het onderzoek zo realistisch mogelijk te houden, namen de onderzoekers de bekendste AI-agents en gaven ze opdrachten die linea recta uit de praktijk kwamen. Deze omvatten via Upwork (een platform waar freelancers opdrachten kunnen vinden) verzamelde klussen zoals opdrachten voor grafisch ontwerp, video‑bewerking, game‑ontwikkeling en simpele administratie zoals data verzamelen.

Elke taak had een duidelijke briefing, de juiste bestanden en een voorbeeld van het gewenste eindresultaat. Toch stokte het zodra meerdere stappen nodig waren of tools gecombineerd moesten worden.

Zelfs de beste AI-agent presteerde slecht

De ranglijst is opmerkelijk. Manus, van een Chinese startup, presteerde het best en kon slechts drie procent van de voorgeschoteld taken met succes afronden. Daarna volgden Grok (xAI), Claude (Anthropic), ChatGPT (OpenAI) en Gemini (Google). In totaal verdienden de agents 1.810 dollar van een mogelijke 143.991 dollar. Dat verraadt hoe beperkt de zelfstandige inzetbaarheid van deze systemen nog is.

De uitkomst is voor mensen met enige kennis van AI wellicht niet zo verrassend. Dan Hendrycks, directeur van CAIS, verklaart waarom de bots volgens hem de verwachtingen niet waar kunnen maken. Hij stelt dat AI-modellen beter zijn geworden in programmeren, wiskunde en logica, maar dat nog twee essentiële dingen missen om menselijk werk te kunnen verzetten: lange termijn geheugen en leren op basis van ervaring. Zonder die basis valt een klus met veel stappen uiteen in losse acties. De agent weet wat stap één is, maar verliest het doel van stap tien uit het oog.

Gat tussen belofte en realiteit

De uitkomst van het onderzoek toont een groot contrast met grote claims die vooral CEO's van AI-bedrijven doen. Zo suggereerde bijvoorbeeld Dario Amodai, CEO van Anthropic, onlangs dat 90 procent van programmeerwerk binnen maanden te automatiseren is. Ook waren er vergelijkbare voorspellingen over snelle vervanging van onder andere radiologen.

OpenAI probeerde zelf de claims te bewijzen en presenteerde in september GDPval, een meetlat die stelt dat nieuwe modellen richting menselijk niveau bewegen op honderden kantoortaken.

Ondertussen is geen perfecte maatstaf die alle economische effecten vangt. In de praktijk gebruiken freelancers AI vooral als hulpmiddel om productiviteit te verhogen, niet als zelfstandige vervanger. Dat maakt de inzet van AI contextafhankelijk.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in