Overslaan en naar de inhoud gaan

Scorebord voor AI-hallucinaties, GPT4 versus Llama en andere concurrenten

Search-aanbieder Vectara heeft een opensourcemodel gemaakt om het hallucinatiegehalte van genAI's te meten en publiceert de resultaten in een ranglijst. Het gaat erom hoe vaak een groot taalmodel (large language model, LLM) hallucineert bij het samenvatten van een document. GPT4 van OpenAI staat er goed voor.

ChatGPT
Shutterstock

Het Hallucination Evaluation Model van Vectara is openlijk beschikbaar op ontwikkelplatform GitHub. Daar valt nu de eerste editie te zien van het Public LLM leaderboard. Vectara doet daarbij de toezegging dat het deze ranglijst op regelmatige basis zal bijwerken, naar gelang de LLM's worden doorontwikkeld én ook het evaluatiemodel zelf wordt verfijnd.

Vragen beantwoorden over AI-gemaakte samenvatting

Op nummer één staat nu GPT4, dat opvallend weinig hallucineert. Deze nieuwste LLM van OpenAI haalt een accuraatheid van 97%, dus komt voor slechts 3% met eigen verzinsels. Op nummer twee staat GPT3.5 met 96,5%, gevolgd door Llama 2 70B (dus de Llama 2-variant die is getraind op zeventig miljard parameters). Opvallend is dat op nummer vier Llama 2 7B staat en op vijf Llama 2 13B. De hoeveelheid parameters lijkt dus niet bepalend te zijn voor het waarheidsgehalte.

De manier waarop Vectara het hallucineren in kaart brengt, gebeurt op basis van een tekstdocument. Die informatie wordt als input gegeven aan de diverse genAI's, met daarbij de opdracht om een accurate samenvatting te geven om daarna dan vragen te beantwoorden over die tekst. Alle antwoorden die informatie bevatten die niet in de oorspronkelijke tekst zit, zijn als hallucinatie te beschouwen. Hiermee ondervangt het bedrijf het probleem dat het voor de meeste genAI's niet bekend of duidelijk is op welke data ze zoal getraind zijn.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in