Overslaan en naar de inhoud gaan

Machinevertalingen maken China toegankelijk

Het machinevertalen, de eerste niet-numerieke toepassing van kunstmatige intelligentie, weigerde lange tijd door te breken. Maar de technologie staat opnieuw in de belangstelling, mede door de groeiende vraag naar economische, technologische en wetenschappelijk informatie uit Oost-Azië, met name uit China. Verschillende bedrijven hebben vertaalsoftware ontwikkeld die documenten en internetpagina’s automatisch van en naar het Chinees vertalen.
grote muur
© Pixabay
Pixabay

Machinevertalingen worden mogelijk onontbeerlijk om de ontwikkelingen in China bij te kunnen houden.
China Guides, een ontwikkelaar van vertaalsoftware, claimt 80 procent accuratesse in Chinees-Engelse vertalingen en een Amerikaans bedrijf, Meaningful Machines, claimt technologie te hebben ontwikkeld die moet leiden tot vertalingen die de kwaliteit van menselijke vertalers benadert. De claims zijn overigens niet door onafhankelijke experts getoetst. Maar bruikbare machinevertalingen worden al met succes ingezet voor het vertalen van teksten in specifieke (afgebakende) domeinen, zoals logistiek, technische handleidingen, weerberichten en juridische teksten.
Een online vertaalserver van het Japanese patentenbureau vertaalt Japanse patenten naar het Engels. De kwaliteit van de vertaling liet tot voor kort te wensen over, maar de strekking van de inhoud werd duidelijk. Onderzoekers konden dan alsnog besluiten of een menselijke vertaling gerechtvaardigd was. De nieuwste versie van de vertaalmachine wordt echter alom geprezen. De Engelse vertaling zou het origineel zeer dicht benaderen.

Combinaties
De recente verbetering van machinevertalingen is te danken aan de groeiende computerkracht en de toepassing van hybride methodes: traditionele ‘rule-based machine translation’ (RBMT) en de meer recente ‘statistical machine translation’ (SMT). Met RBMT worden zinnen ontleed en met behulp van grammatica- en syntactische regels in de doeltaal omgezet. De RBMT-aanpak, die in de jaren vijftig voor het eerst werd toegepast, zorgde niet voor de lang voorspelde doorbraak, mede omdat het aantal uitzonderingen op de regels nagenoeg onbeperkt was.
De statistische methode, mogelijk gemaakt door de groeiende rekenkracht van computers, maakt gebruik van enorme hoeveelheden door mensen vertaalde documenten. Voorbeelden van dergelijk corpora zijn de vertaalde documenten van de VN en de Europese Commissie. Verschillende bedrijven hebben miljoenen meertalige documenten geïndexeerd die in sommige gevallen uit meer dan 2 miljard woorden bestaan. De vertaalsoftware doorzoekt de corpora op identieke (onderdelen van) zinnen en genereert een vertaling gebaseerd op waarschijnlijkheidsberekeningen. (Dezelfde methode wordt gebruikt voor schaakcomputers.)
De huidige trend is dat systemen SMT en RBMT combineren. De statistische resultaten worden, indien vereist, door grammaticaregels gecorrigeerd. Ook worden methodes gebruikt die afgeleid zijn van neuralenetwerktechnieken, onder meer om de juiste vertaling te bepalen van woorden met meerdere betekenissen (bank, weg, net et cetera). De computer analiseert de context waarin een woord wordt gebruikt en kiest vervolgens de meest aannemelijke vertaling. In de Engelse vertaling van de zin ‘Hij gaat naar de bank voor een lening’, zorgt het woord ‘lening’ ervoor dat ‘bank’ niet als ‘bench’ wordt vertaald. Het woord en de associaties worden opgeslagen in een geheugenbank voor toekomstig gebruik, waardoor het systeem verbetert naarmate het langer in gebruik is.

2010
Ontwikkelaars van machinevertaalsoftware zien China als de belangrijkste markt in de komende jaren. Chinees is de moedertaal van 18 procent van de wereldbevolking (voor Engels is dat 8 procent). Volgens Byte Level Research zullen Chineestalige internetgebruikers in 2010 het aantal Engelstalige internetgebruikers overtreffen en zal het aantal Chineestalige websites exploderen. Hetzelfde wordt voorspeld voor het aantal Chineestalige technische en wetenschappelijke publicaties, waardoor de vraag naar vertalingen sterk zal toenemen.
De Chinese taal is de nieuwe rage in Oost-Azië. Voor de meeste landen in Oost-Azië zal China de VS vervangen als de belangrijkste handelspartner. Het Chinees, en met name het Mandarijns, wordt gezien als ‘de nieuwe taal voor diplomatie en handel’ en in een groeiend aantal landen in de regio is het Chinees naast het Engels verplicht. In Korea heeft het Chinees het Engels vervangen als de meest populaire tweede taal en Thailand kampt met een groot tekort aan bevoegde Chinese onderwijzers. Over vijf jaar moet een derde van de Thaise middelbare scholieren Chinees studeren.
Het Chinees is een van de moeilijkste talen ter wereld en vormt een enorme uitdaging voor vertaalsoftware. Het Amerikaanse Language Weaver levert naar eigen zeggen de hoogste kwaliteit die momenteel beschikbaar is voor Chinees-Engels. De pc-versie van de software kost 15.000 dollar, de serverversie 125.000 dollar. (Vergelijkbare vertaalsoftware voor Europese talen is 50 tot 75 procent goedkoper.) Grote bedrijven kunnen de relatief hoge kosten van vertaalsoftware echter snel terugverdienen. Veel multinationals publiceren documentatie (en onderhouden websites) in tientallen verschillende talen, en het actueel houden van meertalige documentatie is kostbaar.
Meaningful Machines in de VS claimt hybride technologie te hebben ontwikkeld die het gebruik van meertalige corpora overbodig maakt. Het bedrijf verwacht een groeiende vraag naar vertaalsoftware voor Aziatische talen bij overheden en het bedrijfsleven. Verder ziet het bedrijf een enorme ‘slapende’ vraag naar vertalingen van teksten waar niemand momenteel aan denkt omdat menselijke vertalingen te kostbaar en tijdrovend zijn. Tarieven voor menselijke vertalers kunnen oplopen tot 20 cent per woord. Volgens Meaningful Machines maakt de volgende generatie vertaalsoftware ‘kwaliteitsvertalingen’ tegen lage prijzen beschikbaar, waardoor de latente vraag zal exploderen.

Dialecten
Inmiddels is de eerste Chinese vertaalsoftware beschikbaar voor de consument. Het Chinees-Amerikaanse bedrijf China Guides introduceerde onlangs een handscanner met pc-software waarmee Chinese teksten uit kranten, catalogi en zelfs handgeschreven teksten gescanned en automatisch vertaald kunnen worden. De software herkent 13.053 Chinese karakters. China Guides claimt vertalingen met een accuratesse van 80 procent, afhankelijk van de moeilijkheidsgraad van de tekst. De software is uitgerust met een spraaksynthesizer en kan de Chinese teksten desgewenst uitspreken.
Op termijn zullen vertaalsoftware en spraakherkenningstechnologie de mondiale taalbarrières voorgoed beslechten. Het Japanse NEC liet begin januari weten ’s wereld eerste draagbare elektronische simultaanvertaler te hebben ontwikkeld, die spraak van het Japans naar het Chinees vertaalt en omgekeerd. De software draait op een PDA en bestaat uit spraakherkenningssoftware, vertaalsoftware en een spraakgenerator. NEC heeft stemmen opgenomen in tientallen Chinese regio’s om het systeem vertrouwd te maken met China’s vele dialecten. De software heeft een woordenschat van 50.000 Japanse en 36.000 Chinese woorden. De draagbare vertaler is in eerste instantie gericht op Japanse zakenmensen en toeristen die China bezoeken.
De volgende stap zijn mogelijk mobieltjes met ingebouwde vertaalsoftware. KDDI lanceerde in februari een mobiele telefoon met spraakherkenningstechnologie. De gebruiker kan een KDDI-server bellen en in natuurlijke taal naar onder meer vertrek- en aankomsttijden van treinen vragen. De server verwerkt de vraag en geeft antwoord met behulp van een computerstem.
In oktober vorig jaar liet NEC al weten automatische vertaalsoftware te hebben ontwikkeld voor single-chip-multicoreprocessoren die in mobiele telefoons worden gebruikt. NEC verifieerde de hoge snelheid van de spraakvertalingssoftware op de eigen MP211-applicatieprocessor voor mobiele telefoons. Het is waarschijnlijk dat realtime-simultaanvertalers ingebouwd worden in mobiele telefoons, waardoor mensen die elkaars taal niet beheersen via een mobieltje kunnen communiceren, zelfs als ze tegenover elkaar zitten.

Krikke is publicist en AG-correspondent in Azië.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in