'Kwaliteit output GPT gaat achteruit in loop van de tijd'

Onderzoek van Stanford University bevestigt dat met name GPT-3.5 en GPT-4 slechter presteren naar mate de tijd vordert. Op verschillende discussieplatformen zingt deze trend al langer rond maar miste tot nog toe bewijs. Over de reden waarom dit gebeurt, wordt veel gespeculeerd.

Thijs Doorenbosch is freelance journalist en tekstschrijver. Hij was meer dan dertig jaar vaste redacteur bij AG Connect (voorheen AutomatiseringGids) Meer van deze auteur

rottende paprika — © Shutterstock

© Shutterstock

Drie onderzoekers van Stanford University en de universiteit van Californië hebben onderzoeksresultaten gepubliceerd (pdf) waaruit blijkt dat bijvoorbeeld GPT-4 in maart veel beter in staat was priemgetallen te identificeren dan in juni. In maart kwam GPT-4 nog op een accuratessescore van 97,6%, maar haalde in juni nog maar 2,4%.

De onderzoekers deden een groot aantal experimenten waarbij de taalmodellen werden gebruikt om bijvoorbeeld wiskundige problemen op te lossen, code te schrijven of gevoelige vragen te beantwoorden. Het algemene beeld was dat zowel GPT-3.5 en GPT-4 in juni slechter presteerden dan in maart, hoewel er wel uitzonderingen waren. In juni presteerde bijvoorbeeld GPT-3.5 juist beter bij het ontdekken van priemgetallen dan in maart.

Bijeffect of bewust?

Het algemene beeld dat de prestaties van de taalmodellen afnemen in de loop van de tijd, wekt verbazing. Doordat de modellen steeds meer getraind raken door het massaal gebruik, is de verwachting eerder dat de prestaties beter worden. Maar gebruikers mopperen al langer over een afnemende kwaliteit van resultaten die de modellen leveren, schrijft onder meer Ars Technica. Daarbij worden uiteenlopende verklaringen geopperd. Een populaire verklaring is dat OpenAI probeert ruimte vrij te maken op de hardware-infrastructuur, door de modellen 'uit te dunnen'. De modellen zouden daardoor ook in staat zijn sneller antwoorden te geven op vragen.

Een andere theorie is dat OpenAI de modellen steeds meer traint op het voorkomen van ongewenste en ongepaste uitkomsten. Deze extra training zou onverwachte bijeffecten hebben op andere resultaten. En daarna zijn er nog de meer complotachtige verklaringen dat OpenAI de prestaties van de goedkope versies bewust laat teruglopen om gebruikers te verleiden over te stappen naar betaalde diensten zoals GitHub Copilot voor het schrijven van code.

Geen manipulatie

OpenAI heeft al eens gereageerd op de klachten, maar wijst alle beschuldigingen van bewuste manipulatie van de prestaties van de hand. 'Er is geen sprake van dat we GPT-4 dommer hebben gemaakt', twitterde Peter Welinder, de productverantwoordelijke bij OpenAI. Hij zegt dat juist alles er op gericht is elke volgende versie slimmer te maken dan de vorige. Zijn verklaring voor de klachten van gebruikers is dat naarmate je de modellen vaker gebruikt je dingen opvallen die eerder niet werden gezien.

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.

Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023

Andere verklaringen

Het wetenschappelijk onderzoek haalt die verklaring wel onderuit. Hoewel andere wetenschappers al hebben aangegeven dat de resultaten van het onderzoek niet direct betekenen dat de prestaties van GPT-4 daadwerkelijk afnemen. Zo vindt bijvoorbeeld Arvind Narayanan, hoogleraar computer science aan Princeton University, dat de resultaten ook verklaard kunnen worden als bijeffect van pogingen van OpenAI om de modellen beter af te stellen. Hij uit bijvoorbeeld kritiek op het feit dat bij het schrijven van code de output alleen is beoordeeld op het onmiddellijk kunnen uitvoeren van de code, niet op de correctheid van de code. De juni-versie van de resultaten bevatte bijvoorbeeld meer tekst - dus non-code - met uitleg.

OpenAI zegt kennis genomen te hebben van het onderzoek en te kijken of er een verklaring voor te vinden is.