Innovatie & Strategie

Storage
LHC

CERN: opslag is grote uitdaging voor wetenschap

Tape helpt, met vooruitgang op nanometerniveau.

© CERN
4 juni 2021

Tape helpt, met vooruitgang op nanometerniveau.

Opslag van data is in 2021 voor veel organisaties allang niet meer het kostbare en complexe probleem dat het ooit was. Spaarzaam capaciteit (gemeten in megabytes) toekennen voor mailboxen, gebruikersmappen en groepsgebieden is iets van het verleden. Maar niet voor de wetenschap. Daar ligt een grote uitdaging, weet storagemanager Alberto Pace van onderzoeksinstituut CERN.

CERN, de Europese organisatie voor onderzoek naar elementaire deeltjes, is méér dan een opslaggrootgebruiker. Het is de overtreffende trap wat betreft petabytes én de constante toename daarvan. Het Italiaanse hoofd van CERN’s datadepartement spreekt in het Engels van een “letterlijke explosie aan data”. Daarmee bedoelt hij dat zijn gebruik van het woord ‘explosie’ om datagroei aan te geven in deze context niet een hyperbool is.

De opslagcapaciteit van CERN is namelijk groot en onstuimig groeiende. Pace geeft wat indrukwekkende cijfers: ongeveer 220 petabyte (PB) aan data die live beschikbaar staat, naast zo’n 360 PB die staat opgeslagen op een totaal van 30.000 tape-cartridges. Tape? Ja, tape. CERN gebruikt vele soorten opslagmedia en tape speelt een belangrijke rol in zijn opslaginfrastructuur.

3 rollen voor opslag

Storage vervult namelijk drie rollen, weet Pace te vertellen. Ten eerste is er gewoon de opslag van gegevens. Ten tweede is er de distributie van data, van onderzoeksgegevens naar wetenschappers. Die gebruikers zijn verspreid over diverse locaties, internationaal. En ten derde is er de ook zeer belangrijke rol van behoud, voor de lange termijn. Terwijl bij rol één snelheid van belang is, speelt bij rol twee beschikbaarheid en bij rol drie betrouwbaarheid.

Nog wat grote getallen van CERN’s hoofd storage: CERN heeft in zijn opslagomgeving te maken met zo’n 4000 nodes die 11,6 gigabyte per seconde aan data wegschrijven. Daarnaast zo’n 62.000 nodes die 103 gigabyte per seconde lezen. In 2018 was er in totaal meer dan 115 petabyte, inclusief zo’n 88 petabyte van de LHC (Large Hadron Collider).

Die deeltjesversneller is de grootste en krachtigste ter wereld en krijgt een upgrade. De data die dat dan gaat opleveren zal vele malen groter zijn in volume en snelheid waarmee het wordt aangeleverd aan CERN’s storagesystemen. Pace voorziet exabyteschaal over twee tot drie jaar. En al die data moet na opslag (rol 1) dan nog worden gedistribueerd (rol 2) én bewaard voor de toekomst (rol 3).

Sterk staaltje storage

Het door sommigen als ouderwets geziene medium van tape is goed geschikt voor dergelijke omvangrijke en veeleisende opstellingen. Tape wordt namelijk nog altijd doorontwikkeld, wat IBM en Fujifilm eind vorig jaar nog hebben geshowd. Toen is een nieuw opslagrecord gevestigd waarbij de ‘grens’ van een halve petabyte per tapecartridge is gepasseerd. Deze prestatie is gerealiseerd door een combinatie van baanbrekend opslagonderzoek.

Daarbij zijn wetenschappelijke doorbraken geboekt op verschillende gebieden. Zo is nieuw tapemateriaal uitgevonden dat een flink vergrote opslagdichtheid heeft en dat nóg dunner is. Verder zijn vindingen gedaan om dat magnetische medium supersnel (met 15 kilometer per uur) en toch stabiel te transporteren. Deze snelle strook loopt langs snelle werkende en toch zeer nauwkeurige schrijf- en leeskoppen. En daarbij worden die aangestuurd door speciale chips voor geavanceerde foutcorrectie.

Bij dit alles gaat het om magnetische datasporen op nanometers, opgeslagen op tape van 4 tot 5 micron ‘dik’. Kortom, een sterk staaltje storage. Immers, hoe hoger de datadichtheid, hoe groter de kans op fouten. En ook: hoe hoger de snelheid, hoe groter de kans op fouten. En fouten zijn niet acceptabel, zeker niet met het oog op de door storagemanager Pace genoemde opslagrollen twee en drie.

Hij prijst daarnaast nog andere bekende pluspunten van tape aan. Het gebruikt namelijk geen stroom als er geen data geschreven of gelezen wordt. Dit in tegenstelling tot harde schijven (HDD’s) die in normale opstellingen nooit helemaal ‘uit’ gaan. Op de grote schaal van CERN scheelt dat een flink energieverbruik. Pace zegt dan ook wat tapeleveranciers en -experts al jaren stellen: tape is per terabyte (TB) goedkoper.

‘Traagheid’ tape als voordeel

Natuurlijk zijn andere vormen van opslag in de regel sneller dan tape. HDD’s en zeker SSD’s (solid-state storage) kunnen hoge schrijf- en leessnelheden halen én hebben hoe dan ook hogere reactiesnelheden. De hoge latency van tape is voor CERN echter één van de pluspunten, geeft Pace aan.

Hij legt uit: als iemand iets per ongeluk wist, door bijvoorbeeld een bug óf door sabotage, dan is dat bij disks of flash-opslag in seconden weg. HDD’s en SSD’s zijn snel, ook als het misgaat. Op tape zou het wissen van grote hoeveelheden data wel een paar jaar kunnen kosten, verklaart de storagemanager van CERN. Hij noemt niet expliciet het spook van ransomware, waarbij data in back-ups ook worden versleuteld of botweg gewist, maar de boodschap is duidelijk.

Vooruitgang en verkleining

Ondertussen schrijdt de wetenschap voort; enerzijds wat betreft de enorme hoeveelheden data die onderzoek oplevert, anderzijds wat betreft opslagtechnologie en tapevermogen. Pace memoreert dat wat zo’n 20 jaar geleden alle data van CERN in een groot datacenter stond, maar dat die hoeveelheid nu past in een kast in zijn werkkamer. Hij verwacht dan ook veel vooruitgang de komende 20 jaar.

Het in december vorig jaar behaalde taperecord hoort daar ook bij. Wat IBM en Fujifilm toen hebben onthuld, is namelijk in het lab gedaan. Het is nog onbekend wanneer de recordcapaciteit van halve petabytes per cartridge door commercieel verkrijgbare tapesystemen wordt gehaald. Op de roadmap voor tape staat eerst nog ‘slechts’ enkele tientallen terabytes per tapecartridge.

tape in IBM's lab

LTO-generaties

De dit jaar geplande negende generatie van tapeformaat Ultrium LTO kan maximaal 18 TB aan ongecomprimeerde data kwijt op een enkele cartridge. Als die data worden gecomprimeerd, kan dat oplopen tot wel 45 TB (afhankelijk van het soort data natuurlijk). Met LTO-10 moet dat respectievelijk 36 en 90 TB worden, met LTO-11 een volgende verdubbeling naar 72 en 180 TB, en met LTO-12 dan 144 en 360 TB.

Met laatstgenoemde wordt het record van IBM en Fujifilm benaderd. De eind vorig jaar onthulde tapecapaciteit in het lab komt door extrapolatie van opslagdichtheid en ‘dikte’ van het magnetische medium uit op zo’n 580 TB per cartridge. Het is afhankelijk van diverse factoren of en wanneer dat precies gehaald wordt. Eerder is al gebleken dat de LTO-roadmap niet in steen is gebeiteld. LTO-9 stond eerst gepland op 24 TB aan ‘raw’ capaciteit, wat dus is teruggeschaald naar 18 TB.

Verifiëren en migreren

Ongeacht de exacte capaciteiten die op de markt gaan komen, is er behoefte aan meer en meer data-opslag. Daarbij speelt naast capaciteit, beschikbaarheid en betrouwbaarheid ook snelheid een rol. CERN’s storagemanager Pace vertelt nog dat goed datamanagement ook het verifiëren van je opgeslagen data omvat. Dus alles teruglezen en controleren.

CERN doet dat geregeld en grijpt dat dan aan om gelijk te migreren naar nieuwe tape. Want dat is weer gedkoper, sneller en heeft een hogere dichtheid. Tape heeft wel een levensduur van tientallen jaren, maar CERN wil pro-actief migreren, legt Pace uit. Om de kostbare data veilig te stellen voor de toekomst.

tape in IBM's lab

1
Reacties
Egbert 05 juni 2021 09:48

Interessant stuk heer Bakker. Goed morgen!! Niet alleen als groet bedoeld maar als reactie op wat ik in het bovenstaande stuk lees. Geweldig en fantastisch dat de wetenschap al zover is en tegelijk vraag ik me af waar is het einde? Telkens als ik dergelijke stukken lees vraag ik me af of we in de laatste twintig jaar op dit balletje 'aarde' zoveel gelukkiger zijn geworden. Of is filosofie niet aan de wetenschap besteed? Natuurlijk is het verschil in kennis enorm met de doorsnee burger maar wat heeft deze burger aan al die prachtige ontwikkeling en tijdsbesteding van het meest intellectuele deel van deze aarde? Dan spreek ik nog niet eens aan de enorme 'voetafdruk' die CERN oplevert. Of vergis ik me daarin?

Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.