Van Dale en TNO samen in taal en IT

29 april 1999
Als alles goed gaat tekenen Van Dale en TNO over enkele weken een samenwerkingsovereenkomst waardoor beide partijen hun marktpositie aanzienlijk verbeteren. Dit najaar zijn de eerste producten van de samenwerking te verwachten.

Taal zit in toenemende mate in computers. Toch wil het ’taalbedrijf’ Van Dale geen automatiseerder worden. TNO kan computers laten omgaan met taal, maar het onderzoeks- en ontwikkelingsbedrijf wil geen uitgever worden.
Het voormalige niemandsland tussen taal en technologie werd ruim een decennium geleden haastig in bezit genomen door partijen uit beide kampen. Aanvankelijk met producten van twijfelachtige kwaliteit. Rammelende systemen voor spellingscorrectie, onbegrijpelijke vertalingen en zonderlinge woordafbrekingen.
Jarenlang koesterden de gevestigde uitgevers van woordenboeken zich in de comfortabele wetenschap dat hun kennis van de taal niet zomaar even op een CD te zetten is. Hun innovatieve concurrenten zouden het voorlopig niet makkelijk hebben.

Drukwerk
Maar inmiddels wordt de technologie zo goed en de processoren zo snel dat het lang gekoesterde kwaliteitsargument niet lang meer in het voordeel van het conventionele gebonden drukwerk hoeft te spreken.
Directeur Bram Wolthoorn van Uitgeverij Van Dale: „We zien dat drukwerk marktaandeel verliest. Spellingscorrectie en de synoniemenfuncties zijn opgenomen in tekstverwerkers die vrijwel algemeen in gebruik zijn. Een groeiend deel van de doelgroep kan zich daarmee blijkbaar goed redden. Nu raakt ons dat nog niet zo. Het gaat nog hoofdzakelijk ten koste van de kleinere woordenboeken. Professionele en zakelijke gebruikers kiezen voor kwaliteit, maar ze zullen op termijn toch ook andere ontsluitingen gaan verlangen dan boeken alleen. We moeten dus mee, of we willen of niet.”

Een CD-Rom-versie van het woordenboek is al enige tijd commercieel beschikbaar, maar Wolthoorn ziet ook mogelijkheden voor andere functies. Te denken valt aan spellingscorrectie, grammaticale correctie, stijlcorrectie, het automatisch genereren van ruwe vertalingen, thesaurie, automatisch samenvatten en automatische toekenning van trefwoorden aan teksten. Maar de daarvoor benodigde ontwikkeling van linguïstieke software onderneemt Van Dale liever niet geheel voor eigen rekening.

Wetenschappelijk
Bijna alles wat over een woord bekend kan zijn is bekend bij Van Dale; de oogst van meer dan honderd jaar zorgvuldig en vooral systematisch verzamelen op basis van wetenschappelijk onderbouwde criteria. Eindeloze lijsten van woorden, gegevens over het gebruik, toegestane verbuigingen, betekenissen, woordsoorten, noem maar op. Die kennis van de talen zit bij Van Dale al jaren in de computer. Voor dat soort gegevens bestaat er een nieuw woord: ’lingware’.
Goede lingware is waardevol. Je kunt het niet alleen gebruiken voor correctie en thesaurie. Er zijn legio andere toepassingsmogelijkheden, variërend van automatisch vertalen en samenvatten tot het identificeren van informatie op Internet of in wetenschappelijke tekstbanken. Wat op het gebied van automatische taalverwerking nu nog niet mogelijk
is, kan over vijf jaar alledaagse praktijk zijn.
Kennis van talen in systemen oftewel ’lingware’ is waardeloos zonder linguïstieke software. Deze software moet lingware toepassen op de documenten die mensen in bedrijven en organisaties opstellen, archiveren, uitwisselen en terugzoeken. Dergelijke software wordt onder meer gemaakt bij TNO in Delft. De afdeling Multimedia Technologie van de Technisch Physische Dienst van TNO onderzoekt en ontwikkelt al jaren mogelijkheden om de inhoud van taal automatisch te herkennen en te verwerken.
Toepassingen betreffen onder meer het terugvinden van informatie in grote verzamelingen tekstdocumenten, rubriceren, classificeren, vertalen en samenvatten. TNO-TPD doet dat voor grote zakelijke klanten. Het gaat onder meer om researchorganisaties, uitgeverijen, omroeporganisaties, bibliotheken en inlichtingendiensten. Vaak zit de geleverde taalkundige kennis als softwaremodule verstopt in een pakket dat wordt geleverd door een softwarebedrijf. Zo brengt het Hilversumse, op de omroepwereld gerichte bedrijf, VDA een documentmanagementsysteem op de markt (Das), dat deze technologie bevat.

Vermarkten
Van Dale werkt al jaren samen met TNO. De uitgever wil zich zoveel mogelijk beperken tot kerntaken als het beschrijven van talen en het op de markt brengen van daarop gebaseerde producten, zonder
’de digitale ontwikkeling’ te missen.
Informatietechnologie is daarom steeds zoveel mogelijk ingekocht, maar dit leidt tot wisselende tevredenheid.
Wolthoorn: „Wat regulier te koop is, wil je niet zelf doen, maar je moet ook je continuïteit bewaken en die is in de IT-sector soms ver te zoeken. Een leverancier is sinds we hun producten gebruiken drie keer van eigenaar veranderd. Soms zie je dat partners zich in een heel andere richting ontwikkelen.”
Door de samenwerkingsovereenkomst met TNO hoopt Van Dale de beschikbaarheid van kwalitatieve linguïstieke software voor zijn organisatie zeker te stellen voor de lange termijn. Wolthoorn: „Het is een club die net als wij hecht aan een wetenschappelijk onderbouwde benadering, waarbij kwaliteit belangrijker is dan even snel iets op de markt te zetten.”
Woordenboekuitgevers die Van Dale voorgingen, hebben vrijwel zonder uitzondering een fors prijsbederf geaccepteerd. Kramers Woordenboeken introduceerde eind 1997 een geïntegreerd woordenboek Nederlands-Frans-Engels-Duits. De adviesprijs was toen nauwelijks meer dan de helft van het bedrag dat nodig zou zijn geweest voor aanschaf van de zes woordenboeken. Uitgever Elsevier-Bonaventura meende toen dat een dergelijk concurrerende prijs nodig zou zijn om de consument over de streep te trekken.

Prijsbeleid
Wolthoorn hanteert echter een tegenovergesteld prijsbeleid: „De Van Dale Grote Vertaalwoordenboeken kosten gebonden ongeveer 250 gulden per set. Voor de CD-Rom vragen we zo’n 400 gulden.Op de zakelijke en professionele markt heeft men dat prijsverschil wel over voor de extra mogelijkheden en het gebruiksgemak van een digitale versie”, meent Wolthoorn.

Ontleden
Bedrijven die linguïstieke software leveren in een kwaliteit die overeenstemt met de gebruikerseisen in dit marktsegment, zijn niet dik gezaaid. In feite is er nog een softwareontwikkelingsstrijd gaande tussen bedrijven als Lernout & Hauspie, diverse universitaire instituten en TNO. Voor dergelijke ontwikkelaars van linguïstiek software is het bezit van complete en vooral consistente lingware cruciaal.
Hoofd Joop van Gent van TNO-TPD’s afdeling Multimediatechnologie: „Alleen met een volledige beschrijving van een taal kun je toetsen of je software ook werkelijk alles wat die taal toestaat kunt ontleden.

Interpretatiefout
Een aardig voorbeeld is een vertaalprogramma dat geen verstand heeft van grammatica. Een zin als ’I like to drink coffee’ wordt in het Duits bijvoorbeeld ’Ich moechte gern Schnapps Kaffee’. Afgezien van de stilistische bezwaren wordt het woord ’drink’ hier opgevat als een zelfstandig naamwoord in plaats van een werkwoord. Dit is een interpretatiefout die alleen kan worden gecorrigeerd als de grammaticale context van de zin wordt meegenomen.
Talen zitten vol met dat soort bijzonderheden en om bijvoorbeeld goede vertaalsoftware te maken moet je daarmee rekening houden.” Andersom kan TNO voor Van Dale programmatuur ontwikkelen waarmee de consistentie van de lingware kan worden bewaakt en verbeterd.

Meer synergie
Behalve de uitwisseling van kennis verwachten TNO en Van Dale ook op het gebied van marketing en verkoop een synergie te bereiken. TNO zette zijn producten tot dusverre vrijwel uitsluitend af als retrieval-software voor zakelijke klanten. De verkoopkanalen en het imago van Van Dale zullen TNO helpen de weg
te vinden naar de veel grotere markt voor ’confectieoplossingen’ op het gebied van taalverwerking en tekstontsluiting in ruimere zin.
Van Dale ziet via TNO de mogelijkheden toenemen om zijn lingware te verkopen
als bouwsteen voor maatwerkoplossingen. Iets waar men tot dusver niet erg op was gebrand, omdat er weinig garanties te verkrijgen waren ten aanzien van de kwaliteit van de linguïstieke software die er rondom zou worden gebruikt.
Tekortschietende software zou bij de gebruiker leiden tot een onvoldoende rendement op de investering in ’lingware’ en zou de indruk kunnen wekken dat de lingware niet deugt. Die zorg kan door het aangaan van een vast samenwerkingsverband met TNO-TPD worden weggenomen.

Een apart toepassingsgebied voor de linguïstieke software die TNO op basis van Van Dale’s lingware wil ontwikkelen wordt gevormd door Internet. Divisieleider informatiesystemen Hans Henseler: „Er staan inmiddels zo’n 150 miljoen documenten op Internet. Men verwacht dat over vijf jaar dit aantal zal zijn vertienvoudigd. Gewone zoektechnieken op basis van het voorkomen van woorden zijn daar niet tegen opgewassen. Ook het handmatig onderverdelen van informatie in categorieën (zogenaamde directory topics) om het zoeken te versnellen, is straks niet meer haalbaar.
Wij hebben de technologie in huis om te komen tot een slimmere ontsluiting. Vorig jaar bleek op de TREC-conferentie dat we samen met Van Dale de wereldwijd op één na beste oplossing in handen hadden voor zogeheten ’cross language information retrieval’. Dat is het taalonafhankelijk opvragen van documenten over een bepaald onderwerp. Het kortgeleden ontwikkelde Adjust-systeem is in staat automatisch informatie te classificeren.”

Zinvolle hyperlinks
„Een ander probleem met Internet is dat de zogeheten hyperlinks niets zeggen over het type data waar ze naar verwijzen. Je kunt aan een link niet zien of er wordt verwezen naar muziek, afbeeldingen of tekst. Met slimme taaltechnologie is het mogelijk om in een verzameling teksten volautomatisch zinvolle hyperlinks aan te brengen. Een extraatje is dan nog dat die hyperlinks worden getypeerd, zodat je daar eventueel iets mee kunt doen. Een voorbeeld hiervan is het visualiseren van een link naar een plaatje of een tekst.”

Rolf Zaal
Automatisering Gids • 01-05-’99
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.