Beheer

Zakelijke software
Rekencentrum complexiteit

Microsoft geeft meer uitleg over oorzaak grote storing

Latente fout in backend Azure Active Directory slipte door controles

© Shutterstock Arjuna Kodisinghe
2 oktober 2020

Latente fout in backend Azure Active Directory slipte door controles

Microsoft publiceerde gisteren in een status-rapport de details van wat mis is gegaan tijdens de storingen van Office 365 en Azure cloudservices begin deze week.

De kern van het probleem lag in een update van Azure Active Directory (Azure AD), de centrale service op het Azure-platform die gebruikers identificeert en autoriseert op het moment dat zij proberen in te loggen. Daardoor hebben de gebruikers die al ingelogd waren tijdens de storingen daar veel minder last van gehad.

Eigenlijk gaat het om twee fouten die tegelijk naar voren kwamen. Microsoft legt uit dat een probleem in een update van een interne validatie-service in Azure AD aanleiding was voor een crash. Normaal zou deze in het Safe Deployment Process (SDP) zijn onderschept maar door een 'latent code defect' in het SPD werd de gemankeerde versie van de validatie-service direct op productie geïmplementeerd. Het Safe Deployment Process (SDP) bestaat uit vijf fasen waarbij in de eerste 'ring' tests worden uitgevoerd zonder klantdata en daarna stapsgewijs met data van Microsoft-klanten voordat de update op productie komt.

Frustratie bij inloggen

De implementatie van de foute code leidde tot frustratie bij gebruikers die wilden inloggen op bijvoorbeeld Outlook of andere Microsoft 365-diensten of diensten van derden die gebruik maken van het Azure cloudplatform. Het lijkt er op dat gebruikers in Noord- en Zuid-Amerika en Australië de meeste last hebben gehad gedurende de storing die duurde van 28 september half twaalf 's avonds Europese tijd tot half 5 's ochtends op 29 september. Zij hadden slechts 17 procent kans op een succesvolle inlog oplopend naar 37 procent. In Azië en Europa was de kans op een succesvolle inlog respectievelijk 72 tot 81 procent.

Microsoft gaf ook nog aan dat voorzorgsmaatregelen er voor gezorgd hebben dat Virtual Machines, Virtual Machine Scale Sets, en Azure Kubernetes Services nauwelijks last hebben gehad van de authenticatiestoring.

Code aangepast

Microsoft biedt excuses aan voor de gevolgen die klanten hebben ondervonden en heeft al stappen genomen om te voorkomen dat het probleem zich nog eens voordoet. Zo is de code in het SDP aangepast en zijn er aanpassingen gedaan aan het 'roll back'-systeem. Deze routine om terug te keren naar de voorgaande situatie als een update problemen geeft, gaat ook vaker geoefend worden. Ook gaat Microsoft een geautomatiseerde pijplijn inrichten die ervoor moet zorgen dat klanten bij problemen binnen 15 minuten worden voorzien van een 'initial communication'.

Microsoft heeft geen verder inzicht gegeven in de oorzaak van de tweede storing binnen een week tijd van Outlook die voornamelijk Europese klanten trof. Daarover is slechts gemeld dat het ging om een mislukte configuratie update.

Lees meer over Beheer OP AG Intelligence
2
Reacties
Thijs Doorenbosch 02 oktober 2020 15:05

@Henk Bangma: Excuus, je hebt gelijk. De tekst is aangepast.

Henk Bangma 02 oktober 2020 14:44

Kort je Azure Active Directory af tot ADD?
Ik zou eerder denken aan AAD, maar MicroSoft zelf maakt er Azure AD van...

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.