Computer herkent betekenis van zinnen

21 december 2010
Onderzoekers van het Instituut voor Cognitie en Communicatie (TICC) van de Universiteit Tilburg claimen een doorbraak op het gebied van geautomatiseerde taalverwerking. Ze zijn erin geslaagd hun computers te laten vaststellen of sterk verschillend geformuleerde zinnen al dan niet dezelfde betekenis hebben. Dergelijke mogelijkheden kunnen van groot belang zijn voor het snel op 'betekenis' doorzoeken en rubriceren van grote hoeveelheden informatie in bronnen als Google of WikiLeaks.

Het geautomatiseerd herkennen van zogeheten parafrases opent de weg naar een breed gebied van toepassingen. Die kunnen variërend van plagiaatherkenning en slimmer zoeken tot betere vertaalsoftware, of geautomatiseerd samenvatten van inhoudelijk verwante teksten.

In het kader van het DAESO-project (Detecting And Exploiting Semantic Overlap) ontwikkelden Emiel Krahmer en Erwin Marsi 'zelflerende' software voor het vergelijken van zinnen. Ze trainden deze software, die uniek is in zijn soort, op een dataset van omstreeks 35.000 paren van uiterlijk sterk verschillende zinnen met een niettemin inhoudelijk gelijke strekking ('semantische overlap'). Het ging onder meer om verschillende vertalingen van dezelfde boeken, krantenkoppen uit verschillende kranten die hetzelfde nieuws behandelen, en persberichten. 

Hooguit enkele procentpunten slechter dan de mens
De aldus 'getrainde' software werd beproefd op omstreeks 100.000 vergelijkbare zinsparen, met opmerkelijk resultaat. De software had het in ongeveer 9 van de 10 gevallen goed, en is daarmee hooguit enkele procentpunten slechter dan de mens. Emiel Krahmer noemt dat een 'zeer bemoedigend' resultaat: "Vooral omdat de mens bij zijn interpretatie van de zinnen gebruik kan maken van zijn kennis van de wereld, terwijl onze software geen gebruikmaakt van domeinkennis".

De dataset voor het onderzoek werd beschikbaar gesteld door de TST-Centrale van de Nederlandse Taalunie, die tevens bijdroeg aan de financiering van het onderzoek. Voorwaarde daarbij was dat de dataset en de analysetools publiekelijk beschikbaar zouden worden gesteld, zodat andere onderzoekers of commercieel geïnteresseerden er een vervolg aan kunnen geven.

Krahmer zelf is overigens nog lang niet voldaan. Zo wil hij graag verder onderzoek- en ontwikkelingswerk verrichten rond toepassingen in de sfeer van geautomatiseerd samenvatten en betere vertaalsoftware.

Lees meer over
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.