Overslaan en naar de inhoud gaan

AI-model Whisper herkent, vertaalt, transcribeert audio bijna net zo goed als een mens

OpenAI heeft een nieuw open source AI-model gepubliceerd, genaamd Whisper, dat audio op bijna menselijk niveau kan herkennen en vertalen. Het model kan daardoor interviews, podcasts, gesprekken en meer transcriberen in het Engels, ook als er in een andere taal gesproken wordt, aldus OpenAI.
brein computer interface
© Shutterstock
Shutterstock

Whisper is getraind op 680.000 uur aan audio-data en bijbehorende transcripts in 98 talen, die op het internet verzameld werden, schrijft Ars Technica. Volgens OpenAI leidde dat ertoe dat het model beter kan omgaan met accenten, achtergrondgeluiden en technische taal. Daarnaast maakt dit het mogelijk om in meerdere talen te transcriberen en om de audio naar het Engels te vertalen.

Het nieuwe AI-model breekt hiervoor de audio op in stukken van 30 seconden, die vervolgens in een encoder worden gestopt. De decoder is getraind om het bijbehorende tekstbijschrift te voorspellen. Daarbij worden ook speciale tokens gebruikt waarmee het model taken uit kan voeren als taalidentificatie, meertalige spraaktranscriptie en vertaling naar het Engels. 

OpenAI heeft Whisper volledig open source gemaakt, in de hoop dat het een bouwsteen kan worden om spraakverwerking en toegankelijkheidstools te verbeteren. Het AI-model is te vinden op GitHub

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in