Cloudflare crashte door databasefout, terwijl het dacht een DDOS-aanval te verwerken
Cloudflare kampte dinsdag met een grote storing die het halve internet platlegde. Het bedrijf weet inmiddels waar het aan lag, maar stuurde zichzelf eerst met een kluitje het riet in.
Dat het internet op slechts enkele grotere partijen leunt om goed te werken, werd dinsdag weer pijnlijk duidelijk toen Cloudflare met problemen kampte. Hierop werd een groot gedeelte van het internet onbereikbaar voor gebruikers.
Na enig onderzoek is inmiddels duidelijk wat de problemen veroorzaakte. Volgens CEO Matthew Prince van Cloudflarewerd de uitval veroorzaakt door een wijziging in database‑rechten. Al dacht het bedrijf aanvankelijk dat het doelwit was van een Hyper-scale DDOS-aanval.
Bedoeld om dreigingen snel te herkennen
De bewuste ‘feature file’ die kwaadaardige botactiviteit bijhoudt, verdubbelde in omvang door de foutieve wijziging van rechten. Hierdoor werd de maximale grootte die het systeem accepteert overschreden. Dit bleef ook niet beperkt tot slechts een configuratie, want Cloudflare verspreidt dit bestand automatisch tussen eigen systemen, zodat alle routing‑software binnen korte tijd nieuwe dreigingen snel kan herkennen.
Omdat deze update fasegewijs liep, wisselden goede en slechte configuraties elkaar af. Diensten herstelden kort en vielen daarna weer uit. Na korte tijd genereerden alle nodes de foutieve versie en kreeg bijna iedereen met de storing te maken.
Misleid door eigen systemen
Juist deze wisseling in goede en slechte configuratie deed het volgens Prince erop lijken dat het bedrijf doelwit was van een gigantische DDOS-aanval. Initieel werden de manschappen dus die richting uit gestuurd, wat het verhelpen van het probleem niet hielp. Pas toen de stabilisatie gebeurde, uren na de eerste uitval, bleek dat er geen sprake was van een DDOS en kon het euvel relatief simpel verholpen worden.
Cloudflare stopte de aanmaak en distributie van de slechte bestanden. Er werd handmatig een ‘goede’ versie in de wachtrij gezet. Daarna volgde een gedwongen herstart van de core proxy, de centrale component die webverkeer door Cloudflare leidt. Daarmee las het systeem alleen nog de correcte configuratie, al duurde herstel door afhankelijkheden in andere systemen langer.
Van je fouten moet je leren
Prince biedt excuses aan voor de uitval. Hij benadrukt dat Cloudflare systemen ontwerpt met hoge veerkracht. Eerdere storingen hebben geleid tot extra maatregelen. Deze keer kondigt het bedrijf vier stappen aan. Inname van interne configuratiebestanden wordt aangescherpt zoals bij gebruikersinput. Er komen meer globale noodstops voor functies. Kernelfouten en andere rapportages mogen systeemresources niet meer overbelasten. Foutscenario’s in alle proxy‑modules worden opnieuw beoordeeld.

Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee