’Voice XML bevrijdt de consument uit zijn kantoorpositie’

12 april 2001
Larson: „Er was behoefte aan een nieuwe taal die de communicatie beschrijft tussen mens en computer. Die taal moet functioneren zoals een manuscript dat acteurs begeleidt in het theater. Het moest een script worden dat weet welke vragen de computer kan stellen en op welke manier de mens antwoord geeft. Die taal noemen we Voice XML. Het is geen programmeertaal. Het beschrijft veel meer wat er gedaan moet worden, dan hoe het gedaan moet worden.
Het voordeel voor de eindgebruiker is dat hij kan beschikken over zogenaamde conversationele applicaties. De gebruiker kan zich bevrijden uit zijn kantoorpositie. Hij is niet langer gebonden aan toetsenbord, muis of beeldscherm. Conversationele applicaties laten de consument een computer gebruiken, waar hij zich ook bevindt: thuis, op kantoor of onderweg. Zolang hij maar een telefoon heeft.”
Voice XML is vooralsnog geen standaard. Waarom niet?
Larson: „De vraag is om Voice XML te erkennen als standaard. Het W3C heeft er al meer dan een jaar ervaring mee. We zullen over enkele weken Voice XML 2.0 op de markt brengen. Het standaardisatieproces bij het W3C duurt lang en is complex. Maar de marktwerking wordt niet vertraagd. Bedrijven kunnen de voorlopige standaard dus implementeren en dat gebeurt ook. Vrijwel elk spraakbedrijf waar ik contact mee heb, werkt met Voice XML. Op het moment dat het een officiële standaard wordt, zal vrijwel niemand daar iets van merken.”
Wat is eigenlijk het verschil met WAP?
Larson: „WAP is een protocol dat de gebruiker van een mobiele telefoon uitrust met de mogelijkheid om informatie op te vragen van Internet. Die informatie wordt op het scherm van de telefoon getoond. De gebruiker kan reageren door op de toetsen van zijn GSM te drukken. Dat is een bruikbare interface. De consument kan immers informatie opvragen die zich niet in zijn onmiddellijke omgeving bevindt. Toch zijn er nadelen. De gebruiker is verplicht om naar het scherm van zijn toestel te kijken. Het is niet mogelijk om veel informatie op dat kleine scherm te laten zien. Bovendien ben je verplicht het toestel in je ene hand te houden, terwijl je met je andere hand de informatie opvraagt. Het is onmogelijk om op deze manier bijvoorbeeld auto te rijden. Bij Voice XML vallen die nadelen weg. Daar staat tegenover dat Voice XML, anders dan WAP, geen visuele informatie kan weergeven, slechts tekst.”
Hoeveel hoop is er dat Voice XML niet hetzelfde fiasco tegemoet gaat als WAP?
Larson: „Ongeveer anderhalf miljard mensen beschikt over een telefoon, terwijl slechts ongeveer een half miljard mensen beschikt over een PC. Het publiek dat je kunt bereiken via de GSM of de traditionele telefoon is in potentie drie keer zo groot als via de PC. Als mensen hun GSM gebruiken om met andere mensen te praten, waarom zouden ze die dan niet ook gebruiken om met een computer te praten? Het is een heel natuurlijk iets om te doen. Het ligt voor de hand dat we mensen met een telefoon via deze telefoon toegang laten krijgen tot hun PC.”
Welke ontwikkelingen kunnen we op dat vlak nog verwachten?
Larson: „Luisteren doen mensen ook door te kijken. Er wordt veel onderzoek gedaan naar het verbeteren van spraakherkenning met visuele informatie. Je mag niet onderschatten hoe belangrijk lichaamstaal en grimassen zijn in communicatie. Intel ondersteunt onderzoek aan de Carnegie Mellon University waar een camera leert liplezen, gezichten van elkaar kan onderscheiden en emoties kan lezen in een menselijk gelaat. Andere onderzoekers hebben geanimeerde hoofden op zo’n manier le-ren praten dat de lipbewegingen van het karakter volledig synchroon liepen met het geluid van hun gesynthetiseerde computerstem.
Het detecteren en analyseren van visuele informatie is een belangrijke ontwikkeling. In de toekomst zullen we met systemen communiceren door middel van gebaren, in plaats van de stem. Over vijf tot tien jaar wordt dat heel gewoon. Het is nog niet klaar voor ’prime time’, maar het komt er zeker aan. Er zijn nu al geanimeerde televisiepresentatoren op de markt, zoals Ananova. Er komen nog veel meer van die Cyberbabes. Het is een interessante manier om net iets meer mee te geven aan de gebruiker dan alleen maar gesproken tekst. Het maakt deel uit van een algemene trend die ik zie in de richting van multimodale of multimediale systemen. Eerst hadden we het toetsenbord, de muis en het beeldscherm. Daarna kregen we spraak voor de invoer en de uitvoer van gegevens. Het ligt voor de hand om die verschillende modaliteiten met elkaar te combineren. Eventueel met toevoeging van handschriftherkenning. Mogelijk ook met video die in staat is om menselijke gebaren te analyseren. Als het zover is, zullen we in staat zijn om met een computer precies hetzelfde te doen als wat we nu op communicatief gebied met mensen doen.”
Als de telefoon het voornaamste communicatiemiddel is en blijft, dringt hij dan de computer naar de achtergrond?
Larson: „Mijn verwachting is dat de telefoon steeds meer zal gaan lijken op de draagbare computer en dat de draagbare computer steeds meer zal gaan lijken op de telefoon. Over enkele jaren zullen we niet langer in staat zijn om het onderscheid te maken tussen beide. Nog later zullen we niet langer in staat zijn om die voorwerpen als dusdanig te herkennen. De telefoon is nu een voorwerp dat we tegen het oor aandrukken. Ik denk dat die vormfactor zal veranderen. Het is denkbaar dat we de telefoon grotendeels in het oor zullen dragen. Het is ook mogelijk dat de telefoon een extensie wordt van de bril waarbij het polshorloge functioneert als beeldscherm.”
Jim A. Larson: „Je mag niet onderschatten hoe belangrijk lichaamstaal en grimassen zijn in communicatie.” foto: luc van peteghem
 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!