Salesforce door het stof vanwege verlies data

Salesforce kampte vorige week woensdag met een uitval van systemen in een Noord-Amerikaans datacentrum die zeker 12 uur aanhield. De schade bleef beperkt, vooral doordat storing midden in de nacht plaatsvond en niet veel klanten actief waren, verklaarde CEO Marc Benioff.

Redactie AG ConnectMeer van deze auteur

Maatschappij — Shutterstock

© Shutterstock

Salesforce geeft nu inzicht in de gebeurtenissen die leidden tot het verlies aan data. Daaruit blijkt hoe het falen van een enkele schakelaar tot problemen in verschillende datacentra kan leiden.

Schakelaar faalde

De start van het probleem lag op 9 mei in het datacentrum in Washington waar een schakelaar weigerde die de energievoorziening in het datacentrum regelt. De verschillende backupsystemen die het probleem moesten opvangen, kwamen niet goed in bedrijf waardoor er uitval van computersystemen optrad. Daarop kwam een veiligheidsroutine in actie waarbij de activiteiten van het datacentrum werden overgeheveld naar een datacentrum in Chicago. Dat werkte, maar helaas niet lang.

Bug in firmware

De prestaties van de database daar zakten in elkaar, omdat de extra werklast te veel druk op de lokale infrastructuur zette. Dat had tot gevolg dat zich een firmwarebug op de storage arrays openbaarde. Die had tot gevolg dat de tijd die nodig was om de database zijn data te laten wegschrijven naar de opslageenheden, sterk toenam.

De databasecluster kon daarop zijn acties niet voltooien en begon time-outs te vertonen bij het wegschrijven naar de opslag. Vanwege die timeout werd het onmogelijk voor een enkele database zijn schrijfactie volledig af te ronden. Daardoor ontstonden onregelmatigheden in de bestandsstructuur van de databases. Het hele databasecluster crashte daarop en het was onmogelijk een snelle herstart uit te voeren.

Synchronisatieroutine gebruikte onvolledige backup

Het daadwerkelijk dataverlies trad op doordat het backupsysteem zo is ingericht dat het vrijwel realtime kopieën maakt. Maar omdat de primaire opslag nog niet was voltooid, werden onvolledige kopieën gemaakt. Vervolgens werden deze onvolledige kopieën gebruikt door een automatisch proces dat de standby kopie van de database in het datacentrum in Washington overschreef die nog de intacte data bevatte van vlak voor de crash. Daardoor was het niet meer mogelijk naar de situatie van vlak van voor de crash terug te gaan.

Salesforce zegt dat de schakelaar die aan de basis van de uitval lag, nog in maart getest was en in orde bevonden. Toch was deze uit voorzorg vervangen. De firmware die het probleem liet escaleren, is vervangen en er is een nieuwe routine in de maak voor het up-to-date houden van de stand-by kopie van de database-instanties. Daarbij wordt de nu gebruikte 'blocks'gewijze replicatie vervangen door een replicatie op applicatieniveau.

De werkplektransformatie van Zuyderland: een cloud-tenzij strategie

Zuyderland transformeert haar digitale werkplek binnen een cloud-first strategie. Irene To vertelt hoe zij dit aan hebben gepakt.

5 min

Achtergrond CIO Onderzoek Partner

Nederlandse CIO’s waarderen Sogeti opnieuw hoog in Whitelane Research IT Sourcing onderzoek 2026

Nieuwste editie van het jaarlijkse Whitelane Research IT Sourcing onderzoek 2026.

1 min

Meer whitepapers

Whitepaper Security Partner

De weg ontdekken naar geïntegreerde IT- en fysieke beveiliging afdelingen

De samenvoegingen van IT en fysieke beveiliging begon jaren geleden, maar hoe staat het er nu voor met deze ontwikkeling?

Whitepaper Artificial Intelligence Partner

The challenge of information asymmetry

In many organizations, decision-making is hindered by information asymmetry, where critical data is unevenly distributed

MEER WHITEPAPERS

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee