Opslag vaak duurder dan nodig

25 november 2011

Een transactie die zojuist is uitgevoerd kan even later weer opgevraagd worden, waarbij de gebruiker de gegevens echt stante pede moet hebben. Een e-mail van een jaar geleden kan ook worden opgevraagd, maar dan mag het best even duren voordat de informatie zichtbaar is. Het heeft dus zin om ‘verse’ gegevens zodanig op te slaan dat ze zeer snel opgevraagd kunnen worden, terwijl ‘belegen’ gegevens op een langzamer toegankelijke plek mogen staan. Geavanceerde gebruikersorganisaties hebben daar een heel schema voor, dat voorziet in een periodieke overheveling van gegevens. De data wordt dan uitgewisseld tussen zogeheten tiers, in het Nederlands beter aan te duiden als lagen.

Ontwikkeling lagen

In de begintijd van de IT was er in feite maar één laag: gevormd door het tapegeheugen. Grote spoelen magneetband zorgden voor de opslag van gegevens en wanneer er een nieuwe tape nodig was, werd deze door een menselijke operator aangebracht. Door de komst van het schijfgeheugen ontstond een nieuwe laag en recentelijk is er een derde laag bijgekomen in de vorm van de solid state disk (SSD).

IBM is de pionier op het gebied van tape en de firma houdt nog steeds vast aan dit medium voor het opslaan van gegevens in de achtergrond. Niet meer met menselijke tussenkomst, maar in de vorm van geheel geautomatiseerde taperobots en -library’s. Concurrent EMC ziet weinig in tape, en lost de problematiek uitsluitend op door gebruik te maken van disks. Naarmate de prijs van schijven afneemt en ze meer gegevens per stuk kunnen bevatten, wordt een kostenvergelijking tussen disk en tape gunstiger.

Write Once, Read Many

Voor offline opslag is wel gebruikgemaakt van optische schijven, omdat die eenmaal beschreven kunnen worden en daarna de gegevens in ongeschonden staat vasthouden. In het Engels staat dat bekend als Write Once, Read Many (WORM). Tenminste, gedurende de levensduur van het medium. Tegenwoordig zijn er ook diskdrives en tapes die met behulp van een elektronisch circuit als WORM-device kunnen werken.

De toplaag, de SSD’s, is momenteel nog behoorlijk aan de prijs en de leveranciers van opslagsystemen doen hun best om het onderste uit de kan te halen. Het is de kunst om met zo min mogelijk supersnel geheugen een zo groot mogelijk effect te bereiken. Vandaar dat er in de laboratoria hard wordt gewekt aan systemen die ‘automatic tiering’ mogelijk maken, een proces waarbij gegevens optimaal worden verdeeld over de beschikbare tiers. Menselijke tussenkomst wordt daarbij zo veel mogelijk uitgesloten.

IBM | StorWize

De oplossing die IBM heeft gevonden voor het verdelen van de gegevens over tiers draagt de naam StorWize. De techniek daarachter moet, zo stelt IBM, leiden tot lagere kosten en kortere toegangstijden doordat informatie op een intelligentere manier wordt opgeslagen. Ook wordt efficiënt gebruikgemaakt van solidstatestations waarmee de performance van cruciale applicaties met 200 procent kan toenemen, zo blijkt uit testen. Door opslag bovendien te virtualiseren, kan de bezettingsgraad van de opslagmedia met zo’n 30 procent worden verhoogd.

De techniek die wordt toegepast om de gegevens over de lagen te verdelen heet bij IBM Easy Tier. De beslissing om een pluk data over te hevelen naar een andere tier wordt genomen op basis van meetgegevens. Het systeem houdt doorlopend bij welke gegevens worden opgevraagd, door hoeveel partijen dat gebeurt en hoe vaak. Wordt een bepaalde drempel overschreden, dan vindt een overheveling plaats.

De data die het vaakst nodig zijn, komen zo in de SSD-sectie van de StorWize terecht, om daar weer uit te verdwijnen wanneer de vraag afneemt. Zo wordt voorkomen dat min of meer slapende gegevens de snelste en ook duurste opslagtechniek in beslag houden.

EMC | FAST

Het verdelen van gegevens over de diverse lagen bij EMC heet kortweg FAST, ofwel Fully Automated Storage Tiering. Ook hier wordt menselijke tussenkomst volledig uitgesloten, wat de kans op fouten verkleint en de snelheid van het hele proces hoger maakt. Toch is er ook een handmatige stand, waarin de gebruiker wordt geattendeerd op een wisseling en deze vervolgens moet goedkeuren. Het voordeel van deze ‘user approval mode’ is dat de beheerders vertrouwd raken met de geavanceerde manier van opslag.

De hardware van EMC bevat SSD’s en diskdrives; er wordt niet gewerkt met magneetbanden. Al vanaf de oprichting van het bedrijf is alleen gewerkt met harde schijven. EMC probeert om tegengas te geven naar de ‘Tier-1 approach’ van veel gebruikers. Dat houdt in dat de data steeds op het allersnelste medium moeten worden opgeslagen. De performance is daarbij de drijvende factor, zeggen de gebruikers, ondanks het feit dat 70 tot 80 procent van de data in de afgelopen negen dagen niet is geraadpleegd.

De performance kan door tiering sterk worden verbeterd, niet alleen door het verplaatsen van data naar een andere tier, maar tevens door een gelijktijdige defragmentatie van die data. Dat gebeurt bij elke wisseling van laag en het kan de gemiddelde toegangstijd verlagen van 15 naar 6 milliseconde, zo blijkt uit tests.

HDS | Dynamic Tiering

Hitachi Data Systems heeft eveneens een mechanisme om gegevens op de optimale plaats neer te zetten en de firma noemt dat Dynamic Tiering. Voor het omwisselen van de data tussen de lagen wordt uitsluitend een beroep gedaan op software die kan werken met verschillende datatypen, namelijk: ongestructureerd (bijvoorbeeld teksten); gestructureerd (records uit een database); semi-gestructureerd (formulieren met ruimte voor vrije teksten) en zogeheten Rich Data (filmpjes, geluidsbestanden en dergelijke).

HDS maakt geen gebruik van tape voor de onderste tier. In plaats daarvan worden langzame en dus goedkopere diskdrives toegepast. “De verdeling is dan als volgt: de bovenste tier bevat SSD’s, in de middelste laag zetten we snelle SAS-disks en de onderlaag wordt bevolkt door langzamere SATA-drives”, zegt Rob Hilterman, salesengineer bij HDS Nederland.

Een bijzonderheid zijn de ‘policy managers’, stukjes beslissoftware die bepalen of gegevens toe zijn aan migratie naar een andere tier. De beslissing wordt genomen met een mix van eigenschappen, zoals de leeftijd of de  gebruiksfrequentie van de data. De beheerder kan ook eigen criteria definiëren.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!