Supercomputer eist snel datatransport

8 juli 2011

Het gebeurt geregeld dat de tijd die nodig is om alle getallen naar de GPU te brengen net zo lang of zelfs langer is dan de tijdwinst die wordt geboekt met de gelijktijdige verwerking. Met als nettoresultaat dat de computer juist langzamer wordt.

“Ik spreek geregeld mensen die betrokken zijn bij de bouw van ultrasnelle computers en vaak komt de GPU dan als onderwerp naar voren. Wanneer ik daar wat tegengas bij probeer te geven door het te hebben over de interconnectie, dan wordt dat niet opgepakt. Het is net alsof ik dan een onderwerp aanroer dat taboe is en dat vind ik hoogst vervelend”, zegt Steve Wallach, computerveteraan en supercomputerdeskundige. De interconnectie is de structuur binnen in een supercomputer die ervoor zorgt dat de processorkernen onderling gegevens kunnen uitwisselen. Het streven is om dat interne netwerk zo breedbandig mogelijk te maken, zodat de transportvertraging zo klein mogelijk is.

Gemiddeld 30 procent verspild
Bij een supercomputer zijn twee waarden van belang, namelijk de theoretische maximumrekensnelheid en de praktische continu leverbare rekensnelheid. Deze worden aangeduid met respectievelijk Rpeak en Rmax. De verhouding tussen de twee is een maat voor de efficiency van de supercomputer. Gemiddeld hebben een systemen in de top 500 een efficiency van 70 procent, wat betekent dat Rmax gelijk is aan 0,7 maal Rpeak.

De veelgeroemde Russische supercomputer van T-Platforms, in gebruik bij de Universiteit van Moskou, heeft een piekvermogen van 1,373 petaflops. Maar toch staat het systeem niet in de top 10, aangezien de efficiency maar 49 procent is. De helft van het rekenvermogen verdwijnt dus als sneeuw voor de zon, door een slechte interconnectie.

Het kan echter nog erger, getuige de Mole 8.5-supercluster uit China. Dit systeem heeft een efficiency van iets meer dan 18 procent, zodat het piekvermogen van 1,138 petaflops resulteert in een Rmax van maar 0,207 petaflops. Het systeem staat daarmee op plaats 33.

Veel bouwers van supercomputers maken gebruik van Ethernet of Infiniband, technieken die wel bruikbaar zijn voor de huidige systemen, maar die zwaar te kort gaan schieten in het exaflopstijdperk. Wallach: “Dan gaat het om systemen met een kracht van minimaal 1 exaflops, ofwel een miljard maal een miljard berekeningen met drijvende komma per seconde. Bij dergelijke hoge snelheden gaat niet alleen de beperkte bandbreedte van de genoemde netwerken een rol spelen, ook de latency is dan dodelijk. Je kunt het gewoon niet hebben dat signalen met een fractie van een nanoseconde vertraging worden overgestuurd. De performance van het systeem stort daardoor in.”

Liefst zo veel mogelijk bandbreedte
De vraag hoeveel bandbreedte dan nodig is voor het interne netwerk, is niet zomaar te beantwoorden. Het simpele antwoord zou zijn ‘zo veel mogelijk’, maar dat is niet realiseerbaar. “In plaats daarvan gebruikt de industrie vaak een vuistregel, namelijk 0,1 bytes per peak flops. Zeg dat een systeem een piekvermogen van 128 gigaflops heeft, dan is de wenselijke bandbreedte van het netwerk 12.8 Gbytes/sec en dat is gelijk aan zo’n 100 gigabits/sec. De gegevens moeten in pakketjes met een lengte van minstens 32 bits over het netwerk worden gestuurd”, zegt Wallach.

In Japan heeft Fujitsu in de vorm van de K een waar rekenmonster gebouwd, dat is voorzien van een geheel in eigen beheer ontworpen interconnectie met de naam Tofu. Dat is een combinatie van een torus (de vorm van een autoband) en een mesh (de vorm van een visnet) dat een zo kort mogelijke verbinding vormt tussen de processorkernen. Dit leidt tot een efficiency van 93 procent. Wallach: “Bovendien heeft Fujitsu alleen gebruikgemaakt van gewone processors – tienduizenden Sparc-chips met acht kernen. Er komt in het hele ontwerp geen enkele GPU voor. De efficiency van 93 procent maakt van deze cluster haast een traditionele vectorprocessor. Het getal is in elk geval zeer indrukwekkend.”

Om de efficiency van een supercomputer te verbeteren kan ook worden gezocht naar een ander programmeermodel. “Dat betekent dat je de software zo indeelt dat gegevens minimaal heen-en-weer gestuurd hoeven te worden. Als je ervoor zorgt dat groepen getallen een aantal bewerkingen in dezelfde GPU kunnen ondergaan, dan heb je al veel gewonnen”, zegt Walter Lioen van SARA uit Amsterdam.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Neem contact met ons op!