Nieuwe OpenAI-modellen hallucineren meer
De nieuwe genAI-modellen die het bekende OpenAI eerder deze maand heeft uitgebracht, zijn niet alleen krachtiger dan voorgaande modellen van het Amerikaanse bedrijf. De modellen o3 en o4-mini blijken ook meer vatbaar voor eigen verzinsels. Tot op heden wisten nieuwere genAI-modellen hun neiging tot hallucineren telkens wat terug te dringen. Maar dat ligt nu anders.

De zogeheten redenerende modellen o3 en o4-mini blijken juist vaker te hallucineren dan hun directe voorgangers o1, o1-mini en o3-mini. Hetzelfde geldt voor de meer traditionele, 'non-reasoning' genAI-modellen van OpenAI, zoals GPT-4o. De discrepantie qua hallucinaties komt naar voren uit interne tests die AI-maker OpenAI heeft uitgevoerd, meldt onder meer TechCrunch.
Twee keer zo veel
In de PersonQA-benchmark van OpenAI gaf het o3-model in 33% van de tijd hallucinaties in de output. Dat is twee keer zo veel als het hallucineren door oudere modellen: 16% bij o1 en 14,8% bij o3-mini. Het nieuwe model o4-mini 'wint' met hallucinaties in 48% van de tijd. De bevindingen in OpenAI's technische rapport (PDF) over o3 en o4-mini worden gestaafd door onderzoek dat extern is verricht.
Tests door nonprofit AI-onderzoekslab Transluce hebben ook een hogere mate van hallucineren aan het licht gebracht. De hypothese van Transluce over deze 'tegendraadse trend', in vergelijking dus met het terugdringen van hallucineren in nieuwere AI-modellen, is dat er een versterkend effect optreedt bij het trainen van OpenAI's o-series modellen. OpenAI zelf geeft aan dat het vooralsnog geen duidelijke oorzaak ziet en dat meer onderzoek hiernaar nodig is.
Menskracht ter controle nodig
Hallucinaties door AI-modellen en daarop gebaseerde toepassingen kunnen het nut nogal inperken. Inaccuraatheid of complete verzinsels ondermijnen immers de voorgespiegelde winst aan tijd, kennis en menskracht. Onbetrouwbare - of onbetrouwbaar geachte - AI-gegenereerde output vereist dan gedegen controle, door experts. Wat dan gevolgd kan worden door eventuele correcties, uitgevoerd door mensen óf door hernieuwde AI-inzet.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee