Management

Cloud

Waar was de failover?

30 november 2012

Begin vorig jaar sloot PostNL een vijfjarig contract met KPN-dochter ApplicationNet, voor levering en beheer van ‘Workspace Online’ voor 13.000 gebruikers. Die deal betrof behalve de werkplekken van PostNL in Nederland ook de werkplekken in België en het Verenigd Koninkrijk. Begin oktober trof een storing de werkplekken van alle medewerkers in het hoofdkantoor in Den Haag (merendeels thin-client) en alle werkplekken van de servicedesks van PostNL. De servicedesks waren wel telefonisch bereikbaar en hadden – anders dan het hoofdkantoor – nog beperkte toegang tot informatie. De postkantoren en de werkprocessen rond pakket- en postbezorging ondervonden geen hinder.

PostNL geldt in Nederland als een van de pioniers op het gebied van brede inzet van thin clients en (private-)cloudtechnologie. Waaghalzerij of een kwestie van ‘learning on the job’, vroegen we betrokkenen en een outsourcingdeskundige naar aanleiding van deze storing. Namens PostNL reageerde CIO Marcel Krom. Als onafhankelijk deskundige raadpleegden we Arno IJmker van het adviesbureau Quint Wellington Redwood. ApplicationNet liet de woordvoering over aan de afdeling mediarelations van moederbedrijf KPN.

Wat was de oorzaak van deze storing?
Woordvoerder KPN/ApplicationNet: “Er was een kettingreactie van afzonderlijke events, die we niet van te voren hadden kunnen bedenken. Daardoor ontstond fysieke schade aan het Storage Area Network. En dat maakte het onmogelijk de virtuele servers – zonder herstelwerkzaamheden – een failover te laten doen naar vervangende storage.”

Is een storing met een impact als deze uitzonderlijk?
IJmker: “Helaas niet. We hebben de afgelopen paar jaar enkele serieuze outages bij klanten van ons gezien. En tja, een hardware failure, dat kan natuurlijk nooit het hele verhaal zijn. Waarom was er geen adequate failover? Het gebeurt zelden dat een SAN op zo’n manier kapot gaat. Het klinkt meer als een probleem met de stroomvoorziening, waarbij een plotselinge powerdown wel de nodige schade kan veroorzaken.”

KPN/ApplicationNet: “Het heeft absoluut niets te maken met een stroomstoring.”

Komt een storing ‘out of the blue’ of is het een ‘calculated risk’?
Krom: “PostNL heeft rekening gehouden met zo’n omvangrijke storing. Het systeem dat niet beschikbaar is, is belangrijk, maar de achterliggende systemen voor de primaire en ondersteunende processen zijn belangrijker. Deze zijn al die tijd beschikbaar geweest.”

KPN/ApplicationNet: “Hoewel we alles in het werk stellen om onze diensten altijd goed te laten draaien, houden we ook altijd rekening met de kans dat zich een storing zal voordoen. Het blijft een technisch complexe dienst. Om die reden zijn er altijd back-upscenario’s. In het geval van PostNL was er een uitwijkmogelijkheid. Afhankelijk van de mate waarin IT nodig is voor de primaire bedrijfsprocessen bepaalt een klant zelf of ze deze dienst willen afnemen, en of ze dit dan voor hun volledige productiecapaciteit doen of voor een deel hiervan.”

Is dat een reëel verhaal?
IJmker: “Het is waar dat je de kans op storingen nooit 100 procent kunt elimineren. Maar wat hier wel opvalt is dat het volgens KPN een cloudservice betreft. Daarvan zou je juist mogen verwachten dat de schaal- en technologievoordelen van de provider optimaal worden ingezet om de technologiebewaking zodanig in te richten dat de kans op disrupties nog lager uitpakt dan bij conventionele datacenterdiensten. Dat effect zien we hier duidelijk niet terug en dat verrast wel.”

Wat was voor PostNL de afweging om niet ook voor werkplekken van uitwijk gebruik te maken?
Krom: “We hebben één dag gebruik gemaakt van uitwijk. Uitwijk heeft ook nadelen, omdat je dan niet 100 procent dezelfde omgeving hebt. Daarom hebben wij de focus gezet op bedrijfscontinuïteit en het weer live krijgen van onze omgeving, dat is de juiste strategie gebleken.”

Sommige klanten van ApplicationNet ondervonden geen hinder van de storing. Waarin verschilde de dienstverlening aan die klanten met die aan PostNL?

KPN/ApplicationNet: “Dat verschil was geen gevolg van verschillen in de contractrelaties. Doordat één component van deze SAN was geraakt trof het een klein deel van de totale groep van klanten.”

IJmker: “Dat klinkt alsof er toch een single point of failure was in de omgeving, specifiek voor PostNL. In een audit of uitwijktest had dit er wel eerder uit moeten komen. Het lijkt ook in strijd met de potentiële voordelen van zo’n ‘as-a-service’-opzet, zeker als je in ogenschouw neemt dat dit bij het afsluiten van het contract als cloudservice is gepositioneerd door KPN.”

KPN/ApplicationNet: “Als het al cloud is, dan is het private cloud. Maar feitelijk gezien is het een datacenterdienst die we tegen een vaste prijs per gebruiker per maand aanbieden. Wij worden regelmatig geaudit door klanten, door KPN en op ons eigen initiatief door andere derde partijen. Recent zijn we zelfs nog geaudit door PostNL. Daarnaast doen we regelmatig uitwijktesten, ook samen met onze klanten. Dit type storingen kun je met een audit of een uitwijktest niet voorkomen.”

Welke gevolgen heeft deze storing voor PostNL’s cloudstrategie?
Krom: “Geen. Elke cloudbeweging bij ons valideren we op continuïteit, en wat als…Ook voor cloud zal je een fallback nodig hebben, of moeten accepteren dat het er niet is en dat je dus tijdelijk zonder een bepaald proces kan.Als je kijkt naar de maatregelen die cloudleveranciers nemen om continuïteit te waarborgen gaat dat veel verder dan wij als individueel bedrijf ooit kunnen leveren.”

IJmker: “Het ver doorgevoerde virtuele aspect van clouddiensten vraagt weliswaar om specifieke maatregelen, maar als klant moet je er ook blindelings vanuit kunnen gaan dat die maatregelen getroffen zijn; bij een due diligence onderzoek dient dit ook aangetoond te worden. In die zin gelden hier dezelfde principes als bij een rekencentrum dat voor meerdere klanten wordt ingezet.”

Welke gevolgen heeft deze storing voor ApplicationNet’s toekomstige delivery processen?
KPN/ApplicationNet: “Uiteraard streven wij zero-repeat na, daar is het KPN altijd om te doen. Om die reden wordt de grondoorzaak zo goed mogelijk weggenomen. Maar we kunnen niet beloven dat er nooit meer een hardwareverstoring plaatsvindt. Wel zullen we er voor zorgen dat de impact bij herhaling sterk wordt verkleind.”

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!