Beheer

Cloud
hitte

Lessen van uitval bij Google en Oracle: backup-koeling steeds belangrijker

Regulering en testen backup-koeling net zo belangrijk als bij noodstroom.

© Shutterstock Quality Stock Arts
22 augustus 2022

Regulering en testen backup-koeling net zo belangrijk als bij noodstroom.

De aanhoudende warmte in Europa met flinke uitschieters in deze en voorgaande zomers, maakt het aannemelijk dat er ook de komende jaren vaker extremen in het weer zullen voorkomen. Waar datacentra in sommige delen van de VS, het Midden-Oosten en Azië daarop berekend zijn, is dat hier nog niet vanzelfsprekend zoals bleek uit de recente problemen bij Google en Oracle. De incidenten bij die twee techreuzen zijn een waarschuwing voor andere datacentrumbeheerders.

Op 19 juli vielen datacentra van Google en Oracle in de buurt van Londen om toen de temperatuur die dag opliep tot boven de 40 graden Celsius. Google was - in tegenstelling tot Oracle - vrij duidelijk in wat er misging. De reguliere koelingsinstallatie kon de warmte niet aan en verschillende redundant uitgevoerde koelsystemen weigerden dienst. Ook Oracle weet de uitval van systemen aan de extreme temperaturen.

Een buitentemperatuur van 40 graden is in onze regionen inderdaad extreem, maar is elders in de wereld niet uitzonderlijk. Datacentra zijn dus prima te koelen tot een aanvaardbare werktemperatuur bij zulke hoge buitentemperaturen. Maar dan moet het datacentrum daar wel op ingericht zijn.

Het draait om stroom en koeling

Zoals beschreven door datacentrumspecialist Moises Levy - analist bij marktanalyse- en adviesbureau Omdia (voorheen Ovum) - en opgetekend door The Register, is er sprake van een precaire balans. Datacentra functioneren op een fragiel evenwicht tussen enerzijds workloads die stroom verbruiken en hitte genereren, en anderzijds de systemen die hitte wegvoeren maar die zelf ook stroom verbruiken.

Scherper gesteld: energie staat gelijk aan kosten, en workloads staan gelijk aan omzet. Maar de omzet genererende workloads hebben koeling nodig om die inkomsten te laten binnenstromen. Daarbij mag dat koelen dus niet te veel geld kosten. Maar onvoldoende koelen staat gelijk aan schade en daarmee verlies aan omzet. Daarentegen levert te veel koelen ook problemen op en bovendien zijn koelinstallaties duur om te installeren: Het is bij elkaar genomen een interessante rekensom voor datacentra.

Bij het balanceren tussen die diverse factoren moeten de datacenterexploitanten rekening houden met de extreme gevallen als ze er zeker van willen zijn dat hun klanten niet te maken krijgen met uitval. Die situatie kan worden bereikt door noodvoorzieningen achter de hand te houden voor zowel koeling als stroomproductie. Zulke noodcapaciteit klaar hebben staan, kost natuurlijk ook wat.

Gelijktijdige uitval

The Register merkt op dat Google in zijn verklaring spreekt over de gelijktijdige uitval van meerdere redundante koelsystemen in combinatie met extreem heet weer. Het gebruik van de woorden redundant en gelijktijdig suggereert dat er bij Google toch sprake was van een enkel punt waar kwetsbaarheden in een systeem samenkomen, ofwel een 'single point of failure.

In veel gevallen is de uitval van een datacentrum juist het gevolg van een cascade aan problemen die vaak klein begint; bijvoorbeeld met een systeem dat niet wil opstarten of dat uitvalt. Vervolgens leidt dat tot problemen elders waarna het hele systeem in elkaar stort. In dat geval is het zaak te achterhalen wat de afhankelijkheden in een systeem zijn en hoe maatregelen te treffen zodat er geen sneeuwbaleffect kan ontstaan.

Een koelsysteem of een noodstroomvoorziening kan nog zo mooi redundant zijn uitgevoerd, als er een storing optreedt bij het controlesysteem dat de temperatuur registreert en beheert en als daarbij de noodvoorziening niet aanslaat, gaat het alsnog mis.

Valse zuinigheid

Volgens Levy kan in het geval van Google ook de leeftijd van apparatuur een rol spelen. Oudere apparatuur heeft meer te lijden van hoge temperatuur dan nieuwere. Google heeft begin dit jaar gemeld een jaar langer dan gepland te willen doen met apparatuur in zijn clouddatacentra om geld te besparen.

Verder verbruikt nieuwere computerapparatuur door de toegenomen rekenkracht ook meer stroom en produceert het dus meer hitte. Daardoor loopt de druk op het koelsystemen verder op. Het is de vraag of en hoeveel marge er dan is voor de benodigde extra koelingscapaciteit. Dat alles staat dan ook in combinatie met de klimaatverandering. Dit vereist dat datacenter-exploitanten extra alert moeten zijn op piekbelastingen in de zomermaanden, nu en in de toekomst.

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.