Beheer

Datamanagement
Rekencentrum complexiteit

Meta maakt onzichtbare datacorrupties zichtbaar

Maar is niet tevreden en heeft geld over voor betere ideeën.

© Shutterstock Arjuna Kodisinghe
18 maart 2022

Maar is niet tevreden en heeft geld over voor betere ideeën.

Meta -het moederbedrijf van onder meer Facebook, Instagram en Whatsapp- heeft een oplossing gedeeld voor een probleem dat zich in elk datacentrum voordoet: silent data corruptions (SDC's). Dit zijn fouten in gegevens die niet worden opgemerkt in system logs of andere monitoring.

SDC's kunnen ontstaan als gevolg van verschillende onderliggende problemen zoals temperatuurschommelingen, veroudering van opgeslagen gegevens maar ook onregelmatigheden in halfgeleiders waarmee de gegevens worden bewerkt, legt ZDNet uit. Het probleem is dat deze fouten in de gegevens niet worden opgemerkt en daardoor lange tijd mee kunnen draaien in processen en zelfs vermenigvuldigen als gevolg van de verwerking. De SDC's komen op alle niveaus van verwerking voor, van geheugen tot opslag en in netwerken en processoren. Uiteindelijk leiden ze tot dataverlies en foutieve uitkomsten van applicaties.

Maar hoe spoor je iets op dat geen sporen achterlaat? Bij Meta hebben onderzoekers er drie jaar lang zich het hoofd over gebroken, maar komen nu toch met een oplossing, zo blijkt uit een blog van het bedrijf.

De onderzoekers hebben daarvoor een combinatie van twee bestaande monitoringtools gemaakt, namelijk out-of-production en ripple testing. Bij out-of-production-tests maakt IT-beheer gebruik van de momenten dat een systeem toch even buiten gebruik is voor onderhoud, bijvoorbeeld bij het herstart of het bijwerken van firmware. Daardoor is er meer tijd om een meer diepgravende test uit te voeren op de correctheid van het systeem en de aanwezige data.

Bij een ripple test wordt tijdens het uitvoeren van een proces een tweede 'schaduw'-proces opgestart waarin met tussenpozen code wordt geïntroduceerd waarvan bekend is wat het effect is op het proces.

Combineren werkt het best

Ripple tests blijken veel sneller resultaat op te leveren dan out-of-production tests en kunnen ook veel vaker worden uitgevoerd. Ze nemen gemiddeld 1.000x minder tijd in beslag dan out-of-production tests. Het nadeel is dat ze minder zorgvuldig zijn, slechts 70% van de SDC's wordt hiermee opgepikt.

Het schijnbaar simpele advies van Meta aan datacenterbeheerders is om toch vooral allebei de tests uit te voeren. Met ripple tests kon Meta heel snel -in vijftien dagen- het merendeel van de SDC's opsporen. De out-of-production tests duurden veel langer -een half jaar- maar daarmee kwam het percentage ontdekte fouten op 93%. De resterende 7% werd ontdekt door herhaaldelijk de ripple tests uit te voeren.

Maar Meta denkt dat het beter kan. Daarom heeft het bedrijf vijf beurzen beschikbaar van elk 50.000 dollar voor wetenschappers die met een goed onderzoeksvoorstel komen om het probleem efficiënter aan te pakken.

Lees meer over
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.