
Microsoft laat computer haast perfect luisteren
Doorbraak in technologie voor mens/machine-interface
Doorbraak in technologie voor mens/machine-interface
Als een mens luistert, wordt de tekst ook niet altijd even goed verstaan, afhankelijk van de manier waarop de spreker articuleert. In elk geval is hier sprake van een grote doorbraak, want luisterende computers hadden altijd een knullig imago. Een team van Microsoft Research in Redmond heeft zelflerende algoritmes bedacht, die spraak feilloos kunnen interpreteren.
Een team onder leiding van Geoff Zweig heeft voortgeborduurd op een lange technologische ontwikkeling. Al vanaf de jaren 50 wordt geprobeerd om computers de menselijke stem te laten verstaan. Haast even lang wordt gewerkt aan de spraaksynthese, maar dat onderwerp lijkt een stuk makkelijker te zijn. Computerspraak, die in het begin blikkerig en robot-achtig klonk, is tegenwoordig nauwelijks nog van echte spraak te onderscheiden.
Geen beperking
Eerdere systemen voor spraakherkenning werkten in een zogeheten 'beperkte probleemruimte', wat wilde zeggen dat ze geschikt waren voor één enkele persoon (na veel trainingsuren) of voor een klein onderwerpje zoals het weerbericht. En dan nog waren die systemen niet echt robuust. Als een gebruiker vaak woordjes als "eeeh" gebruikte of een hoestbui kreeg, waren de resultaten niet te voorzien. Bij een van de herkennende systemen leidde het schrapen van de keel steevast tot het woordje "jurk".
Het systeem dat Microsoft nu heeft ontwikkeld is bruikbaar voor vrijwel elke tekst en vrijwel elke spreker. Ook tussenwerpsels en kuchen zijn geen probleem meer, zeggen de ontwikkelaars. Er is gebruik gemaakt van een verzameling gesproken woorden die in 2000 is vrijgegeven door het National Institute of Standards and Technology (Nist). Ontwikkelaars van spraakherkenningssystemen konden met die verzameling hun techniek testen.
De mens voorbij
Een absoluut perfect luisterende computer is er niet, maar dat geldt ook voor de mens. Over het algemeen hebben mensen een foutmarge van 4 procent, wat wil zeggen dat ze van elke 100 woorden er 4 verkeerd verstaan. Het team van Microsoft heeft dat voor hun systeem weten te verbeteren. Met dien verstande dat ze zijn uitgegaan van een eigen meting van de fouten. Daaruit bleek dat een professioneel transcriptiebureau 5,9 woorden van de 100 verkeerd had. Als het ging om een conversatie tussen twee vrinden was dat zelfs 11,3 procent. Meer informatie staat hier.
Het duurt al een eeuwigheid. Ik heb pas nog een cursus op cassette omgezet naar MP3. Ik wilde graag de tekst hebben. Diverse apps geprobeerd, maar dat was allemaal een puinhoop. Nu ben ik benieuwd of er sinds 1995 toen IBM en Philips pogingen deden spraakherkenning te introduceren met inderdaad een lange inleer met voorleessessies, waarna je op zijn best nog altijd 1 fout per regel tegenkomt, er nu inderdaad een grotere verbetering is gekomen. Vertel maar hoe we het kunnen testen. Lijkt me mooi als de overigens voorbeeldig door echte nieuwslezers ingesproken cursussen foutloos worden geïnterpreteerd. Een klein wonder als Microsoft na de schier eindeloze bizarre reproductie van fouten in allerlei opeenvolgende releases van Windows, nu eindelijk met een product komt, dat niet te vaak een herstart behoeft. We zullen zien.