Salesforce door het stof vanwege verlies data

18 mei 2016
De problemen die Salesforce vorige week ondervond, waren het gevolg van het falen van verschillende systemen. Het bedrijf verloor gegevens die klanten hadden ingevoerd door waterval aan technisch falen.

Salesforce kampte vorige week woensdag met een uitval van systemen in een Noord-Amerikaans datacentrum die zeker 12 uur aanhield. De schade bleef beperkt, vooral doordat storing midden in de nacht plaatsvond en niet veel klanten actief waren, verklaarde CEO Marc Benioff.

Salesforce geeft nu inzicht in de gebeurtenissen die leidden tot het verlies aan data. Daaruit blijkt hoe het falen van een enkele schakelaar tot problemen in verschillende datacentra kan leiden.

Schakelaar faalde

De start van het probleem lag op 9 mei in het datacentrum in Washington waar een schakelaar weigerde die de energievoorziening in het datacentrum regelt. De verschillende backupsystemen die het probleem moesten opvangen, kwamen niet goed in bedrijf waardoor er uitval van computersystemen optrad. Daarop kwam een veiligheidsroutine in actie waarbij de activiteiten van het datacentrum werden overgeheveld naar een datacentrum in Chicago. Dat werkte, maar helaas niet lang.

Bug in firmware

De prestaties van de database daar zakten in elkaar, omdat de extra werklast te veel druk op de lokale infrastructuur zette. Dat had tot gevolg dat zich een firmwarebug op de storage arrays openbaarde. Die had tot gevolg dat de tijd die nodig was om de database zijn data te laten wegschrijven naar de opslageenheden, sterk toenam.

De databasecluster kon daarop zijn acties niet voltooien en begon time-outs te vertonen bij het wegschrijven naar de opslag. Vanwege die timeout werd het onmogelijk voor een enkele database zijn schrijfactie volledig af te ronden. Daardoor ontstonden onregelmatigheden in de bestandsstructuur van de databases. Het hele databasecluster crashte daarop en het was onmogelijk een snelle herstart uit te voeren.

Synchronisatieroutine gebruikte onvolledige backup

Het daadwerkelijk dataverlies trad op doordat het backupsysteem zo is ingericht dat het vrijwel realtime kopieën maakt. Maar omdat de primaire opslag nog niet was voltooid, werden onvolledige kopieën gemaakt. Vervolgens werden deze onvolledige kopieën gebruikt door een automatisch proces dat de standby kopie van de database in het datacentrum in Washington overschreef die nog de intacte data bevatte van vlak voor de crash. Daardoor was het niet meer mogelijk naar de situatie van vlak van voor de crash terug te gaan.

Salesforce zegt dat de schakelaar die aan de basis van de uitval lag, nog in maart getest was en in orde bevonden. Toch was deze uit voorzorg vervangen. De firmware die het probleem liet escaleren, is vervangen en er is een nieuwe routine in de maak voor het up-to-date houden van de stand-by kopie van de database-instanties. Daarbij wordt de nu gebruikte 'blocks'gewijze replicatie vervangen door een replicatie op applicatieniveau.


Lees meer over
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.