spraakherkenning

Microsoft laat computer haast perfect luisteren

Doorbraak in technologie voor mens/machine-interface

26 oktober 2016

Doorbraak in technologie voor mens/machine-interface

Ontwikkelaars bij Microsoft hebben een systeem ontwikkeld dat in staat is het gesproken woord vrijwel perfect te verstaan. In elk geval presteert de machine even goed als een menselijke luisteraar, zo stelt het bedrijf.

Als een mens luistert, wordt de tekst ook niet altijd even goed verstaan, afhankelijk van de manier waarop de spreker articuleert. In elk geval is hier sprake van een grote doorbraak, want luisterende computers hadden altijd een knullig imago. Een team van Microsoft Research in Redmond heeft zelflerende algoritmes bedacht, die spraak feilloos kunnen interpreteren.

Een team onder leiding van Geoff Zweig heeft voortgeborduurd op een lange technologische ontwikkeling. Al vanaf de jaren 50 wordt geprobeerd om computers de menselijke stem te laten verstaan. Haast even lang wordt gewerkt aan de spraaksynthese, maar dat onderwerp lijkt een stuk makkelijker te zijn. Computerspraak, die in het begin blikkerig en robot-achtig klonk, is tegenwoordig nauwelijks nog van echte spraak te onderscheiden.

Geen beperking

Eerdere systemen voor spraakherkenning werkten in een zogeheten 'beperkte probleemruimte', wat wilde zeggen dat ze geschikt waren voor één enkele persoon (na veel trainingsuren) of voor een klein onderwerpje zoals het weerbericht. En dan nog waren die systemen niet echt robuust. Als een gebruiker vaak woordjes als "eeeh" gebruikte of een hoestbui kreeg, waren de resultaten niet te voorzien. Bij een van de herkennende systemen leidde het schrapen van de keel steevast tot het woordje "jurk".

Het systeem dat Microsoft nu heeft ontwikkeld is bruikbaar voor vrijwel elke tekst en vrijwel elke spreker. Ook tussenwerpsels en kuchen zijn geen probleem meer, zeggen de ontwikkelaars. Er is gebruik gemaakt van een verzameling gesproken woorden die in 2000 is vrijgegeven door het National Institute of Standards and Technology (Nist). Ontwikkelaars van spraakherkenningssystemen konden met die verzameling hun techniek testen.

De mens voorbij

Een absoluut perfect luisterende computer is er niet, maar dat geldt ook voor de mens. Over het algemeen hebben mensen een foutmarge van 4 procent, wat wil zeggen dat ze van elke 100 woorden er 4 verkeerd verstaan. Het team van Microsoft heeft dat voor hun systeem weten te verbeteren. Met dien verstande dat ze zijn uitgegaan van een eigen meting van de fouten. Daaruit bleek dat een professioneel transcriptiebureau 5,9 woorden van de 100 verkeerd had. Als het ging om een conversatie tussen twee vrinden was dat zelfs 11,3 procent. Meer informatie staat hier.

1
Reacties
R.G.WOUTERSON 27 oktober 2016 01:15

Het duurt al een eeuwigheid. Ik heb pas nog een cursus op cassette omgezet naar MP3. Ik wilde graag de tekst hebben. Diverse apps geprobeerd, maar dat was allemaal een puinhoop. Nu ben ik benieuwd of er sinds 1995 toen IBM en Philips pogingen deden spraakherkenning te introduceren met inderdaad een lange inleer met voorleessessies, waarna je op zijn best nog altijd 1 fout per regel tegenkomt, er nu inderdaad een grotere verbetering is gekomen. Vertel maar hoe we het kunnen testen. Lijkt me mooi als de overigens voorbeeldig door echte nieuwslezers ingesproken cursussen foutloos worden geïnterpreteerd. Een klein wonder als Microsoft na de schier eindeloze bizarre reproductie van fouten in allerlei opeenvolgende releases van Windows, nu eindelijk met een product komt, dat niet te vaak een herstart behoeft. We zullen zien.

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.