Geheugenchips gaan veel vaker kapot dan gedacht

Geheugenchips vertonen veel vaker storingen dan tot nog toe werd aangenomen. Dat blijkt uit het eerste grootschalige praktijkonderzoek naar chipfouten dat is gepubliceerd. Met dank aan Google.

Redactie AG Connect Meer van deze auteur

Cijfers over defecten in dynamic random acces memory waren tot op heden gebaseerd op testen in laboratoriumcondities, waarbij veelal ook nog de reactie van de chips op extreme omstandigheden onderwerp van testen was.

Daar is nu verandering in gekomen door een onderzoek van Google in samenwerking met de universiteit van Toronto. Google verzamelde daartoe gedurende ruim 2 jaar de gegevens van een zestal serverplatforms in de verschillende rekencentra die het in bedrijf heeft ter facilitering van zijn zoekmachine. Daarmee zijn voor het eerst cijfers beschikbaar gemaakt over grote aantallen servers en geheugenmodules over een langere periode.

Gemiddeld over alle geheugenmodules vonden de onderzoekers, afhankelijk van het platform, foutniveaus van 2000 tot 6000 herstelbare fouten per gigabyte geheugen per jaar. Dat komt volgens de onderzoekers overeen met 25.000 tot 75.000 fouten per miljard uur in bedrijf per megabit; vele malen meer dan het getal van 200 tot 5000 waar men tot nu toe van uitging op basis van laboratoriumtesten.

Jaarlijks kreeg een derde van de machines en 8 procent van de dual inline memory modules (Dimm’s) te maken met zo’n herstelbare fout. Niet-herstelbare fouten troffen 1,3 procent van de machines en 0,22 procent van de Dimm’s. Dergelijke storingen kunnen grote kosten veroorzaken. Bij onherstelbare fouten zal de geheugenmodule vervangen moeten worden. Herstelbare fouten hebben minder consequenties als men, zoals bij Googles servers het geval is, geheugen gebruikt met 'error correction code' (ECC). Dergelijke geheugens zijn wel duurder, en werken 3 to 5 procent trager, maar servers zonder deze voorziening zijn eigenlijk geen optie. Zonder ECC kunnen data in het geheugen gecorrumpeerd raken, wat tot vastlopers kan leiden of tot het voeden van applciaties met onjuiste gegevens.

De onderzoekers hebben onderzocht of er verschillen waren in kwaliteit tussen geheugenbanken van verschillende fabrikanten. In de dataset werden daar geen aanwijzingen voor gevonden. Ook variaties in de bedrijfstemperatuur, de generatie van de chipset en de omvang van de geheugenmodules bleken geen grote invloed te hebben op het optreden van fouten.

Het optreden van fouten laat zich wel voorspellen uit de leeftijd van de chip. Hoe ouder de chip, hoe vaker er fouten in optreden. Na 20 maanden stabiliseert dat zich. Overigens is eenzelfde patroon niet te zien bij de onherstelbare fouten; een module met zo’n fout wordt namelijk meteen vervangen. Ook worden meer fouten geconstateerd bij intensiever gebruik. Dat scheelt een factor 2 tot 3. Maar de onderzoekers sluiten niet uit dat dat komt doordat fouten eerder gevonden worden bij intensief gebruik.

Een belangrijke voorspeller voor het optreden van fouten is ook het optreden van een fout. Een Dimm waarop een herstelbare fout is opgetreden, maakt – afhankelijk van het platform - 13 tot 90 maal zoveel kans op een tweede fout in die maand. Als er de vorige maand een fout is opgetreden, is er nog altijd 35 tot 200 maal zoveel kans op een fout dan bij Dimms die in die maand geen storing vertoonden. Herstelbare fouten blijken ook een goede voorspeller voor het optreden van onherstelbare fouten: de kans op een onherstelbare fout is 27 tot 400 maal zo groot na het optreden van een herstelbare fout.

In principe geeft dit resultaat de onderzoekers geen aanleiding om te adviseren, Dimm’s na de eerste of tweede herstelbare storing te vervangen. Daarvoor ligt het aantal onherstelbare fouten te laag. Alleen in rekencentra waar de kosten van downtime erg hoog zijn, is het aan te raden te berekenen of het kosteneffectief is om Dimm’s al na de eerste fout te vervangen.

Ook de kracht van de ingebouwde foutcorrectie is een belangrijke factor. Dimm’s met een krachtige correctiecode die meerdere bits tegelijk kunnen corrigeren, reduceren het optreden van onherstelbare fouten met een factor 4 tot 10 vergeleken bij minder krachtige correctiemethoden.

Voor de verschillen tussen de platforms, die tot de grote spreiding in resultaten leiden, hebben de onderzoekers geen goede verklaring. Ze speculeren dat die samenhangen met verschillen in ontwerp van de moederborden en de plaats van de DIMM's daarop.

Het rapport 'DRAM Errors in the Wild: A Large-Scale Field Study' is online gepubliceerd door het instituut voor computerwetenschappen van de universiteit van Toronto.