Overslaan en naar de inhoud gaan

Computer herkent betekenis van zinnen

Het geautomatiseerd herkennen van zogeheten parafrases opent de weg naar een breed gebied van toepassingen. Die kunnen variërend van plagiaatherkenning en slimmer zoeken tot betere vertaalsoftware, of geautomatiseerd samenvatten van inhoudelijk verwante teksten.
Maatschappij
Shutterstock
Shutterstock

In het kader van het DAESO-project (Detecting And Exploiting Semantic Overlap) ontwikkelden Emiel Krahmer en Erwin Marsi 'zelflerende' software voor het vergelijken van zinnen. Ze trainden deze software, die uniek is in zijn soort, op een dataset van omstreeks 35.000 paren van uiterlijk sterk verschillende zinnen met een niettemin inhoudelijk gelijke strekking ('semantische overlap'). Het ging onder meer om verschillende vertalingen van dezelfde boeken, krantenkoppen uit verschillende kranten die hetzelfde nieuws behandelen, en persberichten.

Hooguit enkele procentpunten slechter dan de mens
De aldus 'getrainde' software werd beproefd op omstreeks 100.000 vergelijkbare zinsparen, met opmerkelijk resultaat. De software had het in ongeveer 9 van de 10 gevallen goed, en is daarmee hooguit enkele procentpunten slechter dan de mens. Emiel Krahmer noemt dat een 'zeer bemoedigend' resultaat: "Vooral omdat de mens bij zijn interpretatie van de zinnen gebruik kan maken van zijn kennis van de wereld, terwijl onze software geen gebruikmaakt van domeinkennis".

De dataset voor het onderzoek werd beschikbaar gesteld door de TST-Centrale van de Nederlandse Taalunie, die tevens bijdroeg aan de financiering van het onderzoek. Voorwaarde daarbij was dat de dataset en de analysetools publiekelijk beschikbaar zouden worden gesteld, zodat andere onderzoekers of commercieel geïnteresseerden er een vervolg aan kunnen geven.

Krahmer zelf is overigens nog lang niet voldaan. Zo wil hij graag verder onderzoek- en ontwikkelingswerk verrichten rond toepassingen in de sfeer van geautomatiseerd samenvatten en betere vertaalsoftware.

Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in