Overslaan en naar de inhoud gaan

Nieuwe OpenAI-modellen hallucineren meer

De nieuwe genAI-modellen die het bekende OpenAI eerder deze maand heeft uitgebracht, zijn niet alleen krachtiger dan voorgaande modellen van het Amerikaanse bedrijf. De modellen o3 en o4-mini blijken ook meer vatbaar voor eigen verzinsels. Tot op heden wisten nieuwere genAI-modellen hun neiging tot hallucineren telkens wat terug te dringen. Maar dat ligt nu anders.

tegenvallende prestaties
neerwaartse lijn
Shutterstock

De zogeheten redenerende modellen o3 en o4-mini blijken juist vaker te hallucineren dan hun directe voorgangers o1, o1-mini en o3-mini. Hetzelfde geldt voor de meer traditionele, 'non-reasoning' genAI-modellen van OpenAI, zoals GPT-4o. De discrepantie qua hallucinaties komt naar voren uit interne tests die AI-maker OpenAI heeft uitgevoerd, meldt onder meer TechCrunch.

Twee keer zo veel

In de PersonQA-benchmark van OpenAI gaf het o3-model in 33% van de tijd hallucinaties in de output. Dat is twee keer zo veel als het hallucineren door oudere modellen: 16% bij o1 en 14,8% bij o3-mini. Het nieuwe model o4-mini 'wint' met hallucinaties in 48% van de tijd. De bevindingen in OpenAI's technische rapport (PDF) over o3 en o4-mini worden gestaafd door onderzoek dat extern is verricht.

Tests door nonprofit AI-onderzoekslab Transluce hebben ook een hogere mate van hallucineren aan het licht gebracht. De hypothese van Transluce over deze 'tegendraadse trend', in vergelijking dus met het terugdringen van hallucineren in nieuwere AI-modellen, is dat er een versterkend effect optreedt bij het trainen van OpenAI's o-series modellen. OpenAI zelf geeft aan dat het vooralsnog geen duidelijke oorzaak ziet en dat meer onderzoek hiernaar nodig is.

Menskracht ter controle nodig

Hallucinaties door AI-modellen en daarop gebaseerde toepassingen kunnen het nut nogal inperken. Inaccuraatheid of complete verzinsels ondermijnen immers de voorgespiegelde winst aan tijd, kennis en menskracht. Onbetrouwbare - of onbetrouwbaar geachte - AI-gegenereerde output vereist dan gedegen controle, door experts. Wat dan gevolgd kan worden door eventuele correcties, uitgevoerd door mensen óf door hernieuwde AI-inzet.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in