Overslaan en naar de inhoud gaan

Tesla claimt revolutionaire supercomputer speciaal voor machine learning

Tesla introduceerde op de Hot Chips 34-conferentie de Dojo Training Tile, een cluster van ongeveer een kubieke meter. Die is van de grond af aan opnieuw opgezet met machinelearning-doeleinden voor ogen en dat leverde nieuwe inzichten op.
Tesla Dojo ontwerp supercomputer
© Tesla
Tesla

Volgens Ganesh Venkataramanan, de senior director hardware engineering bij Tesla, volgt het werk aan de Dojo Training Tile direct uit een gesprek tussen hem en Elon Musk. "Wat kun je doen dat anders is dan CPU's en GPU's voor AI", zou Musk hem hebben gevraagd. Daar zit volgens Venkataramanan wel de crux. De traditionele methoden om gedistribueerde workloads op te schalen, slagen er niet in bij te blijven met eisen die machine learning stelt. En Tesla heeft betere machine learning nodig omdat dit de enige manier is om real world data processing mogelijk te maken. Bijvoorbeeld voor het rijden in straten die zijn ontworpen voor gebruik door mensen en andere toepassingen waarbij robots om moeten kunnen gaan met de dagelijkse werkelijkheid van de mens.

Tesla heeft van oudsher chips gebouwd. Die worden ingebouwd in packages en die gaan weer op printed circuit boards. De PCB's gaan op hun beurt weer in systemen en de systemen gaan weer in racks, somde Venkataramanan op. "Het probleem is dat elke keer dat gegevens van de chip naar het package gaan of weer terug treedt er vertraging op en gaat het ten koste van de bandbreedte.

Nieuwe opzet

Daarom koos zijn team ervoor terug te gaan naar de tekentafel en een heel nieuwe architectuur op te zetten. Daaruit is de Dojo Training Tile ontstaan, een compleet supercomputer cluster met een inhoud van ongeveer een kubieke meter met een capaciteit van 556 teraflops per seconde in een vloeistofgekoelde behuizing. De box heeft 11 Gb aan SRAM en de componenten zijn onderling verbonden met een 9 Tbps transportlaag met een netwerkprotocol dat door Tesla zelf is ontwikkeld.

Het hart van de machine is een 'die' genaamd D1 met 50 miljard transistoren gemaakt volgens het 7 nm-productieproces van TSMC. In elke tile zitten 25 van deze Tesla D1's die zijn samengebracht met behulp van de system-on-wafer-technologie van TSMC. Volgens Venkataramanan is daarmee maximaal ingezet op de integratie van rekenkracht, opslag en communicatie. Het probleem was echter wel de energievoorziening. De oplossing werd gevonden door de energie direct door de bodem van de 'die' aan te leveren.

Aanvoer data

Om de trainingsdata met voldoende snelheid te voeden aan het systeem ontwikkelde het Tesla-team de Dojo Interface Processor (DIP). Die fungeert als brug tussen de CPU van de host en de trainingsprocessoren, schetste Venkataramanan. Die DIP heeft ook een functie als 32 GB high-bandwidth memory (HBM) en als een 400Gbit/sec Network interface card (NIC). Aan elke Training Tile kunnen 5 DIPs worden gekoppeld die samen 4,5 TB/s aan data aan de tile kunnen voeden.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in