Overslaan en naar de inhoud gaan

Cloudflare crashte door databasefout, terwijl het dacht een DDOS-aanval te verwerken

Cloudflare kampte dinsdag met een grote storing die het halve internet platlegde. Het bedrijf weet inmiddels waar het aan lag, maar stuurde zichzelf eerst met een kluitje het riet in.

Error
Erik Mclean/Unsplash

Dat het internet op slechts enkele grotere partijen leunt om goed te werken, werd dinsdag weer pijnlijk duidelijk toen Cloudflare met problemen kampte. Hierop werd een groot gedeelte van het internet onbereikbaar voor gebruikers.

Na enig onderzoek is inmiddels duidelijk wat de problemen veroorzaakte. Volgens CEO Matthew Prince van Cloudflarewerd de uitval veroorzaakt door een wijziging in database‑rechten. Al dacht het bedrijf aanvankelijk dat het doelwit was van een Hyper-scale DDOS-aanval.

Bedoeld om dreigingen snel te herkennen

De bewuste ‘feature file’ die kwaadaardige botactiviteit bijhoudt, verdubbelde in omvang door de foutieve wijziging van rechten. Hierdoor werd de maximale grootte die het systeem accepteert overschreden. Dit bleef ook niet beperkt tot slechts een configuratie, want Cloudflare verspreidt dit bestand automatisch tussen eigen systemen, zodat alle routing‑software binnen korte tijd nieuwe dreigingen snel kan herkennen.

Omdat deze update fasegewijs liep, wisselden goede en slechte configuraties elkaar af. Diensten herstelden kort en vielen daarna weer uit. Na korte tijd genereerden alle nodes de foutieve versie en kreeg bijna iedereen met de storing te maken.

Misleid door eigen systemen

Juist deze wisseling in goede en slechte configuratie deed het volgens Prince erop lijken dat het bedrijf doelwit was van een gigantische DDOS-aanval. Initieel werden de manschappen dus die richting uit gestuurd, wat het verhelpen van het probleem niet hielp. Pas toen de stabilisatie gebeurde, uren na de eerste uitval, bleek dat er geen sprake was van een DDOS en kon het euvel relatief simpel verholpen worden.

Cloudflare stopte de aanmaak en distributie van de slechte bestanden. Er werd handmatig een ‘goede’ versie in de wachtrij gezet. Daarna volgde een gedwongen herstart van de core proxy, de centrale component die webverkeer door Cloudflare leidt. Daarmee las het systeem alleen nog de correcte configuratie, al duurde herstel door afhankelijkheden in andere systemen langer.

Van je fouten moet je leren

Prince biedt excuses aan voor de uitval. Hij benadrukt dat Cloudflare systemen ontwerpt met hoge veerkracht. Eerdere storingen hebben geleid tot extra maatregelen. Deze keer kondigt het bedrijf vier stappen aan. Inname van interne configuratiebestanden wordt aangescherpt zoals bij gebruikersinput. Er komen meer globale noodstops voor functies. Kernelfouten en andere rapportages mogen systeemresources niet meer overbelasten. Foutscenario’s in alle proxy‑modules worden opnieuw beoordeeld.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Melden als ongepast

Door u gemelde berichten worden door ons verwijderd indien ze niet voldoen aan onze gebruiksvoorwaarden.

Schrijvers van gemelde berichten zien niet wie de melding heeft gedaan.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in