Overslaan en naar de inhoud gaan

Meta maakt onzichtbare datacorrupties zichtbaar

Meta -het moederbedrijf van onder meer Facebook, Instagram en Whatsapp- heeft een oplossing gedeeld voor een probleem dat zich in elk datacentrum voordoet: silent data corruptions (SDC's). Dit zijn fouten in gegevens die niet worden opgemerkt in system logs of andere monitoring.
Rekencentrum complexiteit
© Shutterstock
Shutterstock

SDC's kunnen ontstaan als gevolg van verschillende onderliggende problemen zoals temperatuurschommelingen, veroudering van opgeslagen gegevens maar ook onregelmatigheden in halfgeleiders waarmee de gegevens worden bewerkt, legt ZDNet uit. Het probleem is dat deze fouten in de gegevens niet worden opgemerkt en daardoor lange tijd mee kunnen draaien in processen en zelfs vermenigvuldigen als gevolg van de verwerking. De SDC's komen op alle niveaus van verwerking voor, van geheugen tot opslag en in netwerken en processoren. Uiteindelijk leiden ze tot dataverlies en foutieve uitkomsten van applicaties.

Maar hoe spoor je iets op dat geen sporen achterlaat? Bij Meta hebben onderzoekers er drie jaar lang zich het hoofd over gebroken, maar komen nu toch met een oplossing, zo blijkt uit een blog van het bedrijf.

De onderzoekers hebben daarvoor een combinatie van twee bestaande monitoringtools gemaakt, namelijk out-of-production en ripple testing. Bij out-of-production-tests maakt IT-beheer gebruik van de momenten dat een systeem toch even buiten gebruik is voor onderhoud, bijvoorbeeld bij het herstart of het bijwerken van firmware. Daardoor is er meer tijd om een meer diepgravende test uit te voeren op de correctheid van het systeem en de aanwezige data.

Bij een ripple test wordt tijdens het uitvoeren van een proces een tweede 'schaduw'-proces opgestart waarin met tussenpozen code wordt geïntroduceerd waarvan bekend is wat het effect is op het proces.

Combineren werkt het best

Ripple tests blijken veel sneller resultaat op te leveren dan out-of-production tests en kunnen ook veel vaker worden uitgevoerd. Ze nemen gemiddeld 1.000x minder tijd in beslag dan out-of-production tests. Het nadeel is dat ze minder zorgvuldig zijn, slechts 70% van de SDC's wordt hiermee opgepikt.

Het schijnbaar simpele advies van Meta aan datacenterbeheerders is om toch vooral allebei de tests uit te voeren. Met ripple tests kon Meta heel snel -in vijftien dagen- het merendeel van de SDC's opsporen. De out-of-production tests duurden veel langer -een half jaar- maar daarmee kwam het percentage ontdekte fouten op 93%. De resterende 7% werd ontdekt door herhaaldelijk de ripple tests uit te voeren.

Maar Meta denkt dat het beter kan. Daarom heeft het bedrijf vijf beurzen beschikbaar van elk 50.000 dollar voor wetenschappers die met een goed onderzoeksvoorstel komen om het probleem efficiënter aan te pakken.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in