Beheer

Cloud
Microsoft datacenter

Falende koeling zorgde voor grote storing Azure-clouddiensten

Azure-dienstverlening in belangrijke US-EAST-regio lag urenlang plat.

© CC BY 2.0 - Flickr.com Robert Scoble
9 maart 2020

Azure-dienstverlening in belangrijke US-EAST-regio lag urenlang plat.

Microsoft kwam vrijdagavond met een verklaring voor de belangrijke storing die klanten van Azure-dienstverlening in het oosten van de Verenigde Staten op 3 maart trof. De belangrijkste oorzaak was een falen van de redundante koelingsvoorzieningen.

Vanwege een storing in de automatische klimaatbeheersing in verschillende ruimten van een datacentrum in de EAST US region kwamen Storage, Compute en Networking in de problemen en alle diensten die daarvan afhankelijk waren. De problemen duurden van half 10 's ochtends tot 16:00 's middags lokale tijd (ET).

Microsoft geeft aan dat elke component van het koelingsysteem minstens een backup heeft (N+1 redundancy), maar dat kon niet verhinderen dat de koelende luchtstromen in het datacentrum significant verminderden. Daardoor ontstond een cascade aan gebeurtenissen die uiteindelijk resulteerden in het falen van netwerkcomonenten, vielen de virtual machines uit en gingen ook een aantal opslageenheden offline.

Problemen volgden elkaar op

Het probleem met de koeling kon worden opgelost met een reset van het systeem. Maar als gevolg van het type storing, moest elke koelingseenheid handmatig worden gereactiveerd. Dat was al na een half uur gefixed. Daarna moesten echter alle componenten weer opnieuw worden opgestart.. Met name de oplsag en compute VM's wilden aanvankelijk niet automatisch herstarten. Dat lukte uiteindelijk wel zodat om 22:00 vrijwel 100 procent van de dienstverlening weer beschikbaar was.

Microsoft gaat diep door het stof in het aanbieden van excuses. Volgens het bedrijf is ook van deze incidenten weer geleerd. Zo wordt het automatisch klimaatbeheersingssysteem aan een gedetailleerd vervolgonderzoek onderworpen en de noodzakelijke aanpassingen ook aangebracht in de overige datacentra in de wereld die met hetzelfde koelingssysteem werken.

 

Lees meer over
1
Reacties
Eric-Jan Hoogendijk 14 maart 2020 12:42

" ... elke component van het koelingsysteem minstens een backup heeft (N+1 redundancy) ..."

Niet elke component heeft in dit geval een back-up maar elke N componenten (bv 4) heeft 1 back-up. Anders zou het een 1+1 redundantie zijn.

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.