Vertaalalgoritmen leren veel van de bijbel

Vertaalprogramma's zijn inmiddels genoeg te vinden op internet. De een is beter dan de ander. Maar ze zetten zonder uitzondering de tekst om in de dezelfde stijl als het origineel. Omzetten van tekst in een andere stijl is een volgende stap in het perfectioneren van tekstvertalers.

Thijs Doorenboschis freelance journalist en tekstschrijver. Hij was meer dan dertig jaar vaste redacteur bij AG Connect (voorheen AutomatiseringGids) Meer van deze auteur

Er is waarschijnlijk geen boek in de wereld dat in zo veel talen en zo veel stijlen is uitgegeven als de bijbel. Dus is dat perfect bronmateriaal voor het aanscherpen van machinelearning-algoritmen, dachten Keith Carlson, Allen Riddell en Daniel Rockmore van Dartmouth College in de Amerikaanse staat New Hampshire.

De bijbel bestaat immers uit meer dan 31.000 verzen. Alleen al in de Engelse taal zijn daar talloze vertalingen van die verschillen in stijl. Er is bijvoorbeeld een versie voor laaggeletterden, een kinderbijbel, maar ook een klassieke 'King James Version'. Zo wisten de onderzoekers meer dan 1,5 miljoen unieke sets van originele en vertaalde verzen te verzamelen uit de 34 bijbelvertalingen die ze hadden geselecteerd op basis van hun stijlverschillen.

Willekeurige teksten in verschillende
stijlen

Die sets werden gevoerd aan twee verschillende vertaalalgoritmen, een statistisch machinevertaalsysteem genaamd Moses en een neuraal netwerk dat vaak wordt ingezet voor machinale vertaling genaamd, Seq2Seq. Op die manier ontstaat een vertaalprogramma dat willekeurige teksten kan omzetten in een stijl die aansluit bij verschillende doelgroepen. De onderzoekers hebben het systeem getest met stukken uit Moby Dick, het beroemde boek van de Amerikaanse schrijver Herman Melville. Ze hebben daar bijvoorbeeld versies van gemaakt voor kinderen en voor mensen voor wie het Engels niet hun moedertaal is.

"Het simplificeren van teksten is maar een van de toepassingen van stijlvertalingen. Meer in het algemeen proberen we onze systemen zo te trainen dat ze teksten produceren met dezelfde boodschap als het origineel maar met andere woorden", zegt Carlson.

'Goddelijke' datasets

Het is niet de eerste keer dat parallelle datasets zijn gecreëerd. Ook van Wikipedia-lemma's en van Shakespeares werken zijn dergelijke sets gemaakt, verklaren de onderzoekers in hun artikel in Royal Society Open Science. Maar het is wel de eerste keer dat de bijbel is gebruikt. Volgens de onderzoekers is het een 'goddelijke' dataset om mee te werken. De teksten zijn heel goed geïndexeerd door het consequente naamgeving van de verschillende boeken, hoofdstukken en verzen in de bijbels. Daardoor is er eigenlijk geen risico dat er ruis ontstaat doordat vertaalde teksten bij het geautomatiseerd matchen worden gekoppeld aan verkeerde originelen.