Computer herkent betekenis van zinnen

Het geautomatiseerd herkennen van zogeheten parafrases opent de weg naar een breed gebied van toepassingen. Die kunnen variërend van plagiaatherkenning en slimmer zoeken tot betere vertaalsoftware, of geautomatiseerd samenvatten van inhoudelijk verwante teksten.

Redactie AG ConnectMeer van deze auteur

Maatschappij — Shutterstock

© Shutterstock

In het kader van het DAESO-project (Detecting And Exploiting Semantic Overlap) ontwikkelden Emiel Krahmer en Erwin Marsi 'zelflerende' software voor het vergelijken van zinnen. Ze trainden deze software, die uniek is in zijn soort, op een dataset van omstreeks 35.000 paren van uiterlijk sterk verschillende zinnen met een niettemin inhoudelijk gelijke strekking ('semantische overlap'). Het ging onder meer om verschillende vertalingen van dezelfde boeken, krantenkoppen uit verschillende kranten die hetzelfde nieuws behandelen, en persberichten.

Hooguit enkele procentpunten slechter dan de mens
De aldus 'getrainde' software werd beproefd op omstreeks 100.000 vergelijkbare zinsparen, met opmerkelijk resultaat. De software had het in ongeveer 9 van de 10 gevallen goed, en is daarmee hooguit enkele procentpunten slechter dan de mens. Emiel Krahmer noemt dat een 'zeer bemoedigend' resultaat: "Vooral omdat de mens bij zijn interpretatie van de zinnen gebruik kan maken van zijn kennis van de wereld, terwijl onze software geen gebruikmaakt van domeinkennis".

De dataset voor het onderzoek werd beschikbaar gesteld door de TST-Centrale van de Nederlandse Taalunie, die tevens bijdroeg aan de financiering van het onderzoek. Voorwaarde daarbij was dat de dataset en de analysetools publiekelijk beschikbaar zouden worden gesteld, zodat andere onderzoekers of commercieel geïnteresseerden er een vervolg aan kunnen geven.

Krahmer zelf is overigens nog lang niet voldaan. Zo wil hij graag verder onderzoek- en ontwikkelingswerk verrichten rond toepassingen in de sfeer van geautomatiseerd samenvatten en betere vertaalsoftware.