Microsoft laat computer haast perfect luisteren

Als een mens luistert, wordt de tekst ook niet altijd even goed verstaan, afhankelijk van de manier waarop de spreker articuleert. In elk geval is hier sprake van een grote doorbraak, want luisterende computers hadden altijd een knullig imago. Een team van Microsoft Research in Redmond heeft zelflerende algoritmes bedacht, die spraak feilloos kunnen interpreteren.

Richard Keijzer Meer van deze auteur

Een team onder leiding van Geoff Zweig heeft voortgeborduurd op een lange technologische ontwikkeling. Al vanaf de jaren 50 wordt geprobeerd om computers de menselijke stem te laten verstaan. Haast even lang wordt gewerkt aan de spraaksynthese, maar dat onderwerp lijkt een stuk makkelijker te zijn. Computerspraak, die in het begin blikkerig en robot-achtig klonk, is tegenwoordig nauwelijks nog van echte spraak te onderscheiden.

Geen beperking

Eerdere systemen voor spraakherkenning werkten in een zogeheten 'beperkte probleemruimte', wat wilde zeggen dat ze geschikt waren voor één enkele persoon (na veel trainingsuren) of voor een klein onderwerpje zoals het weerbericht. En dan nog waren die systemen niet echt robuust. Als een gebruiker vaak woordjes als "eeeh" gebruikte of een hoestbui kreeg, waren de resultaten niet te voorzien. Bij een van de herkennende systemen leidde het schrapen van de keel steevast tot het woordje "jurk".

Het systeem dat Microsoft nu heeft ontwikkeld is bruikbaar voor vrijwel elke tekst en vrijwel elke spreker. Ook tussenwerpsels en kuchen zijn geen probleem meer, zeggen de ontwikkelaars. Er is gebruik gemaakt van een verzameling gesproken woorden die in 2000 is vrijgegeven door het National Institute of Standards and Technology (Nist). Ontwikkelaars van spraakherkenningssystemen konden met die verzameling hun techniek testen.

De mens voorbij

Een absoluut perfect luisterende computer is er niet, maar dat geldt ook voor de mens. Over het algemeen hebben mensen een foutmarge van 4 procent, wat wil zeggen dat ze van elke 100 woorden er 4 verkeerd verstaan. Het team van Microsoft heeft dat voor hun systeem weten te verbeteren. Met dien verstande dat ze zijn uitgegaan van een eigen meting van de fouten. Daaruit bleek dat een professioneel transcriptiebureau 5,9 woorden van de 100 verkeerd had. Als het ging om een conversatie tussen twee vrinden was dat zelfs 11,3 procent. Meer informatie staat hier.