De telefoon zal de muis verdringen

29 maart 2001
De 84-jarige Amerikaans filmacteur Kirk Douglas bekende tijdens een recente huldiging in Berlijn dat hij van zijn vrouw een spiksplinternieuwe auto had gekregen. Het was de bejaarde acteur bij nader inzien slecht bevallen. Douglas: „Toen ik de auto wou starten, vroeg de boordcomputer mij een nummer in te spreken. Ik schrok zodanig dat ik uit de wagen ben gesprongen. Ik heb hem geruild voor die van mijn vrouw.” Douglas, zeer beslist: „Ik rijd niet in sprekende auto’s!” Autoproducenten en marktanalisten zijn het er echter roerend over eens dat het gebruik ervan in de auto halsoverkop zal toenemen. DaimlerChrysler zou de afdeling spraaktechnologie van het Ieperse Lernout & Hauspie voor autonavigatiesystemen naar verluidt willen overnemen voor een slordige 250 tot 350 miljoen dollar. Auto’s worden steeds vaker uitgerust met boordcomputers die, om evidente redenen van veiligheid, bij voorkeur met de stem worden bediend, in plaats van met de handen.

Sociaal gedrag
DaimlerChrysler installeerde vorig jaar ruim 160 duizend dergelijke spraakgestuurde computers in merken zoals BMW, Porsche en Audi. Uit studies blijkt dat de meeste mensen zich, anders dan Douglas, over het algemeen loyaal en zelfs beleefd opstellen tegenover sprekende computers. Clifford I. Nass, hoogleraar aan de faculteit communicatie van de Amerikaanse Stanford University, komt in een recent onderzoeksrapport tot de bevinding dat mensen zich fundamenteel sociaal blijven gedragen wanneer ze in dialoog treden met een computer die is uitgerust met een Interactive Voice Interface (IVI). Nass zegt: „Mensen blijven beleefd wanneer ze met een gesynthetiseerde computerstem converseren. Ze blijken dezelfde noties van ’het zelf’ en ’de ander’ te hanteren wanneer ze te maken krijgen met die computerstem.”
De verklaring is dat sociaal gedrag automatisch en op een onbewust niveau wordt gegenereerd. Nass: „Het normale sociale normenstelsel blijft met andere woorden van kracht in de communicatie tussen mens en machine.” Dat neemt niet weg dat het voorbeeld van Kirk Douglas aangeeft dat niet iedereen altijd gecharmeerd is van technologische fratsen in een oude, vertrouwde omgeving. De doorbraak van spraakherkenning zal dan ook niet in de eerste plaats in de automobielsector plaatsvinden.
Volgens John Oberteuffer van het in spraaktechnologie gespecialiseerde onderzoeksbureau Voice Information Associates (VIA) zwicht de telecomsector als eerste voor de belofte van spraakherkenning. De telefoon en de menselijke stem vormen een natuurlijke combinatie. Oberteuffer: „De telefoon wordt primair nog steeds gezien als een menselijk invoer-uitvoer-apparaat. Het gebruik van automatische spraakherkenning in telefoonapplicaties is een evidente en natuurlijke extensie van de telefoon.”
Verschillende factoren dragen bij tot de verbreiding van spraakherkenning in telefoonsystemen. De eerste factor die Oberteuffer in dit verband noemt is de robuustheid van de huidige systemen. Spraakherkenning werkt vooralsnog niet perfect, maar kan inmiddels wel wedijveren met professionele receptionisten. Volgens een studie van Lucent wordt 96,2 procent van alle telefoonverkeer correct afgehandeld door een spraakgestuurde computer, terwijl receptionisten dat in slechts 87 procent van de gevallen doen. Oberteuffer: „Spraakherkenning wint het op alle fronten. Telefoontoetsen zijn ontworpen om telefoonnummers in te toetsen. De keuze beperkt zich tot de getallen 0 tot en met 9. Het intoetsen vergt een inspanning van zowel de hand als de ogen. Spraakherkenning daarentegen is relatief goedkoop en relatief betrouwbaar.”

Betaalmethode
Ook de liberalisering van de telecomsector helpt de spraaktechnologie een handje. Die liberalisering had dramatische financiële consequenties voor de oud-monopolisten. Maar ook de nieuwe spelers in de telecommarkt moeten op de kleintjes letten. Volgens de Strategis Group zijn de gemiddelde inkomsten per telefoongebruiker sinds 1992 gedaald van bijna 80 dollar naar amper 50 dollar per gebruiker in 1998. Daar staat tegenover dat de kosten die met het werven van de klant gepaard gaan aanzienlijk gegroeid zijn. Cahners In-Stat Group rekent voor dat de kosten die in 1999 met het werven van een telefoonklant gepaard gingen, tegen het jaar 2004 ruim drie keer hoger zullen liggen.
Kostenbesparingen en additionele inkomsten zijn dan ook meer dan welkom. Spraakherkenning biedt in dat opzicht perspectieven. Een aantal voorbeelden toont aan wat de mogelijkheden zijn. Klanten van AT&T die gebruik maken van het collect calling systeem van de Amerikaanse telecomgigant, maken aan het begin van het gesprek bekend welke betaalmethode ze willen gebruiken. De mogelijkheden beperken zich tot ’collect call’, ’bill to third party’ of ’creditcard call’. Deze instructies kunnen eenvoudig uitgesproken worden. AT&T introduceerde dit spraakgestuurde belsysteem in de loop van 1993. Sindsdien maken gemiddeld vijftig miljoen klanten per maand er gebruik van. Veelal zijn die klanten zich overigens niet eens bewust van het feit dat ze een spraakgestuurde computer instrueren.
AT&T bespaart op jaarbasis aan manuren circa 300 miljoen dollar. Het voorbeeld is spraakmakend in de industrie. In Nederland is overigens een vergelijkbaar systeem bekend van de Nederlandse Spoorwegen. Reizigers kunnen hun reisinformatie opvragen via een zogenaamde ’sprekende computer’. Hoeveel kosten de NS tot dusver heeft bespaard met dit systeem is niet bekend.
Verschuiving
Ruim 80 procent van alle Amerikaanse ’Fortune 1.000’-bedrijven beschikt over een callcenter. De werkgelegenheid in callcenters bedraagt in Europa 1,6 procent en in de VS 3 procent van alle werkgelegenheid. Volgens VIA kan een callcenter dat honderdduizend telefoons per maand verwerkt een kostenbesparing realiseren van circa 1,2 miljoen dollar per jaar, door gebruik te maken van spraakherkenning. Oberteuffer voegt daaraan toe dat het gebruik van spraaktechnologie inmiddels allang niet meer uitsluitend gaat over kostenbesparingen. Er is sprake van een grondige verschuiving in de inzet en perspectieven die met de invoering ervan gepaard gaan.
De verwachting is dat een forse uitbreiding van het dienstenpakket via de telefoon een stroom van nieuwe omzetten kan veroorzaken. Zowel de spraakindustrie als de telecomsector bereiden zich in dat opzicht voor op de exploitatie van het zogenaamde ’VoiceWeb’ of de ’Voice Portal’. Niet meer dan enkele honderden miljoenen gebruikers beschikken thans over een PC die toegang verschaft tot Internet. Daar staat tegenover dat circa 1,5 miljard mensen een telefoon hebben. Die grote groep krijgt straks via Voiceweb toegang tot Internet, zonder dat daar WAP, UMTS, GPRS of I-mode voor nodig is. Straks kan iedereen via een gewone telefoon spreken tegen en luisteren naar websites, in plaats van klikken en lezen.
De betreffende sites hoeven slechts te zijn opgemaakt in VoiceXML, ontwikkeld onder auspiciën van het W3C. VoiceXML maakt distributie via de telefoon mogelijk van diensten als weersinformatie, bioscoopprogrammatie, openingstijden van restaurants en hotels, sportnieuws en beursberichten. De informatie die voor die diensten nodig is, is al aanwezig op Internet. Zodra de bewuste informatie in het keurslijf van VoiceXML gegoten is, kan de gebruiker zelf bepalen wanneer en met welk invoerapparaat hij de bewuste informatie wil raadplegen. Dergelijke informatie kan aangeboden worden via diensten die gratis of tegen betaling toegankelijk zijn. In beide gevallen kunnen de telecomoperators rekenen op een zekere aanwas van de telefoontikken die de gebruiker genereert. Aan de andere kant staan de bedrijven die de informatiediensten zullen aanbieden op hun beurt weer te trappelen van ongeduld om via diezelfde telefoon additionele inkomsten te genereren uit e-commerce. Blijft de vraag over of de klant zich ook daadwerkelijk zal laten verleiden door deze nieuwe diensten.

’De’ spraaktechnologie bestaat niet
Spraaktechnologie staat voor verschillende vormen van technologische bravoure. Het volledige spectrum van de spraakindustrie incorporeert immers ook taaltechnologie. Onder deze paraplu vallen onder meer automatische machinevertalingen. Aan de invoerzijde staat spraakherkenning voorop. Er wordt een onderscheid gemaakt tussen sprekerafhankelijke en sprekeronafhankelijke spraakherkenning. Sprekerafhankelijke spraakherkenning veronderstelt dat de gebruiker zich intensief inoefent zodat de computer in staat is om zijn of haar unieke stemgeluid te herkennen. Deze vorm van spraakherkenning wordt vrijwel uitsluitend gebruikt voor systemen die grote woordenschatten aankunnen. Voorbeelden zijn spraakherkenning voor de PC waarbij zowel dictaat als navigatie door menustructuren mogelijk zijn door middel van de stem. De telecomsector evenwel verlaat zich over het algemeen op sprekeronafhankelijke spraakherkenning. Het is immers even onwenselijk als onpraktisch dat de gebruiker vooraf zijn stem zou inoefenen. Sprekeronafhankelijke spraakherkenning die zowel jonge als oude stemmen, mannen en vrouwen en diverse dialecten moet herkennen, is slechts mogelijk met beperkte woordenschat.
Aan de uitvoerzijde van de spraakindustrie staat spraaksynthese (tekst-naar-spraak). De meest geëvolueerde systemen (van Lernout & Hauspie, van AT&T Speechify en van Fonix Corporation) genereren een bijna menselijk klinkend geluid. Belangrijker evenwel is dat spraaksynthese gewoon goed verstaanbaar is. Waarnemers wijzen er echter op dat een bijna menselijk klinkende computerstem in lang niet alle omstandigheden per se nuttig is. Uit onderzoek blijkt dat gebruikers soms de voorkeur geven aan een computerstem die als dusdanig te onderscheiden is van een menselijke stem. Een en ander zou het vertrouwen in het systeem vergroten. Spraaksynthese die niet van een menselijke stem te onderscheiden is, zou in een aantal gevallen voor verwarring en wantrouwen kunnen zorgen.
 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!