Google maakt algoritme - dat 101 talen 'spreekt' - open source

Google heeft MT5 - een veeltalige variant van Googles T5-model - beschikbaar gemaakt als open source. Het model is getraind op een dataset met 101 talen. Het zou ook makkelijk kunnen omgaan met talen die het nog niet eerder heeft gezien.

Thijs DoorenboschMeer van deze auteur

blahblah — © Pixabay licence

Pixabay licence

Een algoritme dat is getraind met datasets uit verschillende talen, is door datawetenschappers makkelijker te trainen voor gebruik in een specifieke taal. Er is dan relatief weinig nieuwe training nodig op een specifieke dataset om toch goede resultaten te bereiken. MT5 heeft al 'kennis' van 101 talen, maar zou door deze achtergrond ook goed ingezet kunnen worden voor talen die niet in de trainingsset zaten. De heilige graal van het onderzoek naar veeltalige AI-modellen is een model te bouwen dat alle, meer dan 7000 talen die in de wereld worden gesproken, kan begrijpen.

Google is niet het enige bedrijf dat op dat doel jaagt. Facebook en Microsoft deden eerder deze maand hun eigen variant van een veeltalig machinelearning-algoritme uit de doeken, genaamd M2M-100 en T-ULRv2 . Zij kunnen omgaan met respectievelijk 100 en 94 talen.

Zero-shot begrip

Multilingual translation models maken gebruik van gemeenschappelijke eigenschappen in verschillende talen. Daardoor kunnen ze teksten ontrafelen in talen die het algoritme nog niet eerder tegenkwam, de zogeheten zero-shot translations.

Googles MT5-model is gebaseerd op T5, het Text-To-Text-Transfer-Transformer model, dat het bedrijf een jaar geleden presenteerde. Dit was een voorbeeld van hoe goed het werkt om een model eerst te trainen op een data-intensieve taak voordat het wordt afgesteld op een specifieke taak met een sterk afgekaderde trainingsset. Deze methode heet transfer learning. Het T5-model werd met een aantal benchmarks zoals GLUE, SQuAD en SuperGLUE aan de tand gevoeld en scoorde daarin uitzonderlijk goed. In de laatstgenoemde test haalde het een score van 88,9, net iets minder dan de 'menselijke' score van 89,8. Ook met MT5 claimt Google weer de hoogste score te behalen in de benchmarks.

Scrapen van websites

Om de grote datasets in veel talen te krijgen die nodig zijn voor de transfertraining, maken bedrijven als Google, Facebook en Microsoft gebruik van het scrapen van websites. Zo is MT5 getraind op de MC4-dataset, een afgeleide van C4. De laatste set bestaat uit een verzameling van 750 GB aan uitsluitend Engelstalige teksten uit de Common Crawl repository. Deze bestaat weer uit de ruwe data van miljarden webpagina's die maandelijks worden bezocht door Common Crawl. De MC4-dataset is verrijkt met pagina's in 107 talen.

Het probleem met het trainen met deze datasets is dat ze makkelijk vooroordelen (bias) aanleren. De onderzoekers van Google hebben geprobeerd dit probleem te ondervangen door pagina's uit de dataset te verwijderen die 'lelijke' woorden bevatten en door gedupliceerde zinnen te verwijden. Ook is met een tool de hoofdtaal van elke pagina bepaald en zijn alle pagina's verwijderd, waarvan de hoofdtaal niet met 70 procent zekerheid kon worden vastgesteld.