Innovatie & Strategie

Artificial Intelligence
blahblah

Google traint AI-model met 1,6 biljoen parameters

Google presenteert een taalmodel dat vier keer zo snel is als T5-XXL.

© Pixabay licence Gerd Altmann
13 januari 2021

Google presenteert een taalmodel dat vier keer zo snel is als T5-XXL.

Google claimt een model voor taalverwerking te hebben getraind dat een meer dan een biljoen (1000 miljard) parameters bevat. Parameters bevatten de eigenschappen van trainingsdata die elke laag van een deeplearningmodel vastlegt. Ter vergelijking: het bekendste taalmodel - GPT-3 van OpenAI heeft 175 miljard parameters.

Het trainen van modellen met een simpele architectuur op grote hoeveelheden trainingsdata met een grote hoeveelheid parameters, is volgens de Google-onderzoekers (pdf) de meest effectieve manier om krachtige taalmodellen te creëren. Hun effectiviteit is veel groter dan modellen met een complexe opbouw. Het nadeel van het trainen op extreem grote datasets heeft als nadeel dat het veel computerkracht koste en dus ook veel energie.

De Google-onderzoekers hebben daarom een nieuwe tactiek toegepast die ze 'Switch Transformer' hebben genoemd. Kort door de bocht wordt steeds gebruik gemaakt van slechts een deel van het model ofwel de parameters die de input data omzetten in het model. Op die manier ontstaan in het model verschillende 'experts', delen van het model die zijn gespecialiseerd in verschillende taken. Een netwerk van poorten (gating network) zorgt ervoor welke 'experts' in het model worden aangesproken voor verwerking van data.

Werklast verdelen

Deze gedistribueerde aanpak past goed bij het gebruik van hardware die speciaal is ontwikkeld voor massale parallelle verwerking zoals de door Google ontwikkelde Tensorflow Processing Unit (TPU) maar ook de meer algemene grafische chips (GPU's) die daarvoor worden ingezet. Op die manier kunnen de verschillende experts verdeeld worden over meerdere apparaten waardoor het benodigde geheugen en rekencapaciteit per apparaat beheersbaar blijft.

Google claimt nu dat zijn Switch-C-model met 1,6 biljoen parameters en 2048 'experts' veel stabieler is dan eerdere modellen.

Lees meer over Innovatie & Strategie OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.