Innovatie & Strategie

Personal Tech
Praten met je smartphone

Nog even, en praten met je smartphone is heel gewoon

Google, Microsoft en IBM brengen het spraakinterface op de rand van volwassenheid.

21 september 2016

Google, Microsoft en IBM brengen het spraakinterface op de rand van volwassenheid.

Een spraakinterface is voor computer- en smartphonegebruikers de meest efficiënte wijze van communiceren met hun computer. Praten met je computer of smartphone is nu nog geen optimale ervaring. Maar in spraakgeneratie en – herkenning gaan de ontwikkelingen nu snel.

Google is er met een nieuwe techniek in geslaagd het kwaliteitsgat tussen menselijke spraak en computergegenereerde spraak te halveren. Zowel bij ‘Amerikaans Engels’ als bij Mandarijn-Chinees ligt de waardering nu boven de 95 procent van het niveau dat een menselijke spreker haalt – gemeten via de methodiek Mean Opinion Scores.

Die kwaliteit heeft Google weten te bereiken door gebruik te maken van een neuraal netwerk dat het aanduidt al WaveNet. Met dat neurale netwerk kan niet alleen beter verstaanbaar, maar ook natuurlijker klinkende spraak gegenereerd worden, en overigens desgewenst ook muziek. Meer informatie over die techniek is te vinden op Googles WaveNet-blog.
 

Microsoft van zijn kant kan bogen op een belangrijke doorbraak bij spraakherkenning. Het haalde een zogeheten ‘word error rate’ van 6,3 procent op de 200 Switchboard-spraakherkenningstest van het National Institute of Standards and Technology. Met zijn ‘2016 Conversational Speech Recognition System’ http://arxiv.org/abs/1609.03528 stak Microsoft IBM de loef af, dat een week eerder trots meldde dat het een foutpercentage van 6,6 procent had weten te bereiken.

Daarmee zijn de ontwikkelaars nog niet waar het wezen moet. Spraakherkenning moet dichter richting de 99 procent komen, willen mensen het ook standaard gaan gebruiken, denken experts. Maar ook bij de huidige stand van de techniek is te zien dat men het gemak waardeert. Op Android wordt 1 op de 5 zoekopdrachten ingesproken, constateerde TechCrunch onlangs, en dat is de afgelopen 6 jaar met een factor 7 gegroeid. Praten gaat nu eenmaal een stuk sneller dan typen  -dat scheelt wel een factor 4 – en je kunt het doen zonder dat je je aandacht geheel aan het toestel hoeft te wijden. En naarmate computers en smartphones beter verstaan wat je zegt en duidelijker antwoorden, zal het gebruik snel toenemen.

Op de achtergrond zal daarvoor ook met behulp van kunstmatige intelligentie overigens aan het begripsvermogen van de betrekkende spraakassistenten gesleutel worden. Woorden verstaan is één ding, begrijpen wát er gezegd wordt is vaak iets heel anders.

Lees meer over Innovatie & Strategie OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.