Overslaan en naar de inhoud gaan

Groot universitair onderzoek bewijst: LLM's zijn nog steeds slecht in rekenen

In de categorie: we wisten het wel, maar we deden net alsof het geen probleem was, behandelen we vandaag de rekenkundige kracht van de grotere AI-modellen. Wat blijkt? LLM's zijn toch nog niet zo goed in rekenen als de makers beweren.

Wiskunde
Vitaly Gariev/Unsplash

Een nieuwe benchmark laat zien dat grote LLM's nog steeds moeite hebben met wiskunde en rekenen. Onderzoekers van Omni Calculator en Europese universiteiten presenteerden ORCA, een test met 500 rekenkundige vragen uit praktijkdomeinen. Vijf toonaangevende modellen scoorden maximaal 63 procent.

De ORCA‑benchmark is ontwikkeld om rekenbetrouwbaarheid te meten in natuurlijke taal. De makers stellen dat bestaande tests vaak herkend worden door modellen omdat onderdelen in trainingsdata zitten. ORCA richt zich op echte berekeningen en deterministische redenering. Het doel is om patroonherkenning te scheiden van werkelijke rekenvaardigheid. De resultaten staan in een preprint op arXiv en op de site van Omni Calculator.

Google scoort het best, met Musk op de hielen

Geteste modellen zijn ChatGPT‑5, Gemini 2.5 Flash, Claude Sonnet 4.5, Grok 4 en DeepSeek V3.2. De hoogste score was 63 procent voor Gemini 2.5 Flash. Grok 4 kwam uit op 62,8 procent. DeepSeek V3.2 haalde 52,0 procent. ChatGPT‑5 scoorde 49,4 procent. Claude Sonnet 4.5 eindigde op 45,2 procent. De onderzoekers spreken van fouten in afronding en berekening als dominante problemen.

De vragen zijn verdeeld over zeven categorieën. Het gaat om biologie en chemie. Het gaat om techniek en bouw. Het gaat om financiën en economie. Het gaat om gezondheid en sport. Het gaat om wiskunde en conversies. Het gaat om natuurkunde. Het gaat om statistiek en kansrekening. DeepSeek V3.2 was het meest wisselvallig. Het model scoorde 74,1 procent in wiskunde en conversies. Het scoorde 10,5 procent in biologie en chemie. Het scoorde 31,3 procent in natuurkunde.

Nieuwe test zaagt poten onder bestaande benchmarks vandaan

De onderzoekers plaatsen hun werk naast bekende benchmarks zoals GSM8K en MATH‑500. Op die tests halen modellen soms zeer hoge scores. De auteurs wijzen op het risico van overschatting door beperkte wetenschappelijke strengheid en hergebruik van vragen. Zij benadrukken dat rekenredenatie een andere vaardigheid is dan tekstredenering. Zij verwijzen ook naar Our World in Data, waar AI‑modellen in april 2024 negatief scoren op wiskundige redenatie ten opzichte van een menselijk nulpunt.

Een voorbeeld uit ORCA illustreert de nuance. De vraag gaat over zeven blauwe leds van 3,6 volt, parallel geschakeld op 12 volt met een serieweerstand en 5 milliampère stroom. Gevraagd wordt naar het vermogensverlies in de weerstand in milliwatt. Het verwachte antwoord is 42 milliwatt. Een model kwam uit op 294 milliwatt. Bij herhaling gaf hetzelfde model het juiste en het onjuiste antwoord, met de uitleg dat onduidelijkheid bestond over de betekenis van 5 milliampère. Dit laat zien dat kleine interpretatieverschillen grote uitkomstverschillen geven.

Taalvaardigheid staat nog steeds niet gelijk aan rekenvaardigheid

De auteurs concluderen dat vooruitgang in taalvaardigheid niet automatisch leidt tot rekenbetrouwbaarheid. De testperiode was oktober 2025. De makers benadrukken dat modellen snel worden aangepast. De scores tonen daarom een momentopname. Zij zien de benchmark als hulpmiddel om verbeteringen in rekentaken te volgen. Zij willen zo transparant maken wat modellen werkelijk kunnen op het gebied van berekenen.

ORCA is onderdeel van een bredere discussie over evaluatie van AI‑systemen. De onderzoekers roepen op tot onderscheid tussen memorisatie van patronen en controleerbare berekening. Zij geven aan dat deterministische taken een andere toets vragen dan open vraagstukken. De publicatie zet hiermee druk op ontwikkelaars om rekenredenering expliciet te testen naast taalcapaciteiten.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in