Computer herkent betekenis van zinnen

In het kader van het DAESO-project (Detecting And Exploiting Semantic Overlap) ontwikkelden Emiel Krahmer en Erwin Marsi 'zelflerende' software voor het vergelijken van zinnen. Ze trainden deze software, die uniek is in zijn soort, op een dataset van omstreeks 35.000 paren van uiterlijk sterk verschillende zinnen met een niettemin inhoudelijk gelijke strekking ('semantische overlap'). Het ging onder meer om verschillende vertalingen van dezelfde boeken, krantenkoppen uit verschillende kranten die hetzelfde nieuws behandelen, en persberichten.
Hooguit enkele procentpunten slechter dan de mens
De aldus 'getrainde' software werd beproefd op omstreeks 100.000 vergelijkbare zinsparen, met opmerkelijk resultaat. De software had het in ongeveer 9 van de 10 gevallen goed, en is daarmee hooguit enkele procentpunten slechter dan de mens. Emiel Krahmer noemt dat een 'zeer bemoedigend' resultaat: "Vooral omdat de mens bij zijn interpretatie van de zinnen gebruik kan maken van zijn kennis van de wereld, terwijl onze software geen gebruikmaakt van domeinkennis".
De dataset voor het onderzoek werd beschikbaar gesteld door de TST-Centrale van de Nederlandse Taalunie, die tevens bijdroeg aan de financiering van het onderzoek. Voorwaarde daarbij was dat de dataset en de analysetools publiekelijk beschikbaar zouden worden gesteld, zodat andere onderzoekers of commercieel geïnteresseerden er een vervolg aan kunnen geven.
Krahmer zelf is overigens nog lang niet voldaan. Zo wil hij graag verder onderzoek- en ontwikkelingswerk verrichten rond toepassingen in de sfeer van geautomatiseerd samenvatten en betere vertaalsoftware.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee