Microsoft: vertrouw AI-agents geen lange taken toe
Nu agent-technologie steeds meer in de belangstelling komt te staan, komen Microsoft-onderzoekers met een waarschuwing: zelfs de beste LLM’s maken fouten bij het uitvoeren van taken met veel stappen. Na twintig bewerkingen op een document bevat het resultaat in de helft van de gevallen inhoudelijke fouten.
Afgaande op de marketing van de techindustrie staan we aan de vooravond van een situatie waarbij zwermen AI-agenten allerlei taken zelfstandig en in interactie met elkaar tot een goed einde brengen. Dat gaat misschien goed bij korte kernachtige opdrachten. Bij complexe taken met een groot aantal interacties gaan zelfs de beste modellen in de fout, constateren Philippe Laban, Tobias Schnabel en Jennifer Neville, onderzoekers van Microsoft Research, in een wetenschappelijk artikel dat als preprint beschikbaar is.
Ze ontwikkelden een benchmark genaamd DELEGATE-52 met 310 werkomgevingen verdeeld over 52 domeinen, waaronder programmeren, kristallografie, genealogie en muziekschrift. Daarin experimenteerden ze per domein met vijf tot tien complexe taken die normaal door een kenniswerker worden uitgevoerd. Denk daarbij aan ‘Splits dit bestand op per categorie’ en ‘Voeg ze weer in de juiste volgorde samen tot één bestand’. Het ging allemaal om bewerkingen op het document waarbij het model diep in de inhoud moest ingrijpen, bijvoorbeeld door te splitsen, te classificeren en te herstructureren. De onderzoekers analyseerden zo negentien LLM’s uit de zes modelfamilies van OpenAI, Anthropic, Google, Mistral, xAI en Moonshot.
Vervolgens berekenden ze een reconstructiescore na twintig interacties die aangeeft hoeveel van het originele document nog intact is gebleven. Een score van 100% betekent dat het resultaat na de twintig bewerkingen nog volledig identiek is aan het originele document.
In de helft van het resultaat zitten fouten
De onderzoekers concluderen dat het gemiddelde van de eindscores over alle geteste modellen ongeveer op 50% uitkomt. Dat betekent dat er in de helft van de gevallen na twintig bewerkingen inhoudelijke of structurele fouten in de documenten zitten.
In het artikel constateren ze verder dat er geen sprake is van plateauvorming. Na meer dan honderd interacties blijft de score verder dalen. Het gaat niet om heel veel kleine foutjes. In ongeveer 80 procent van de gevallen is het verminderde resultaat het gevolg van een grote kritieke fout die in één iteratie plaatsvindt en waarbij de score meer dan 10% daalt. Opmerkelijk is ook dat de bekendste modellen (frontiermodellen) vooral vaak fouten veroorzaken, terwijl de kleinere, zwakkere modellen vooral inhoud verwijderen.
Bewerken van Python-code gaat het beste
Een andere opmerkelijke bevinding is dat bij het bewerken van Python-code 17 van de 19 modellen een reconstructiescore van meer dan 98 procent halen. De onderzoekers geven hiervoor als verklaring dat de code erg gestructureerd is en gemakkelijker te verifiëren.
Volgens de onderzoekers zijn meer benchmarks in meer werkgebieden nodig om in de toekomst LLM’s te testen op langdurige taken. Ze concluderen dat de huidige modellen nog niet betrouwbaar genoeg zijn voor het delegeren van correctiewerk. Zelfs de beste modellen maken bij langere workflows gemiddeld 25 procent fouten en dat percentage neemt toe met meer interacties en grotere documenten.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee