Gegevensexplosie vraagt om meer dan opslagcapaciteit

20 mei 1999
Het gemiddelde bedrijf heeft over een jaar waarschijnlijk
twee of drie keer zoveel gegevens digitaal opgeslagen als nu. Een dergelijke groei van de opslagcapaciteit hoeft bedrijven niet voor problemen te stellen, maar een IT-afdeling moet aan meer denken dan alleen capaciteit: openheid, flexibiliteit en het beslag op het netwerk.

Freek Blankena
De hoeveelheid digitaal opgeslagen gegevens groeit steeds sneller. De gegevensberg in een gemiddeld bedrijf uit de Fortune top-1000 zal tussen 1990 en 2000 gemiddeld zijn toegenomen van 28 tot ongeveer 400 terabyte, aldus IDC. En die groei blijft voorlopig exponentieel groeien, vooral door de komst van nieuwe
IT-toepassingen. „Anderhalf jaar geleden kochten we een opslagsysteem van 5 terabyte groot. maar nu hebben we alweer 13 terabyte nodig”, zegt professor William Orrison, die de radiologie-afdeling van de Universiteit van Utah leidt. De snel vorderende digitalisering van de opslag van allerlei soorten medische beelden (röntgen, CTI- en MRI-scans et cetera) zal hem in de toekomst meer opslagproblemen bezorgen, verwacht hij nu.
De meeste bedrijven zijn zich over het algemeen in onvoldoende mate bewust van hun toekomstige opslagbehoefte. „Ik word vaak voor gek verklaard als ik bedrijven de groei van hun opslagbehoeften voorspel”, zegt IDC-analist Claus Egge. Zijn collega Luis Praxmarer van Meta Group heeft hetzelfde probleem. Hij schat de opslag-groeiratio voor een doorsnee bedrijf op 200 procent per jaar – een verdriedubbeling dus. „Hier wreekt zich de communicatiestoornis tussen ITen het algemeen management. Als je het de laatste vraagt denkt men op safe te spelen met 25 procent groei in opslagcapaciteit. Maar op de IT-afdeling weten ze al lang dat het op het mainframe meer zal zijn en op PC-servers zelfs 200 procent. En als je het de marketingmanager van een groot bedrijf vraagt, heeft hij waarschijnlijk net een mooie nieuwe toepassing in gedachten die misschien nog eens een extra verdubbeling van de hoeveelheid opslag oplevert”, zegt Praxmarer.
De opslaghausse heeft vele oorzaken. Allereerst is er de natuurlijke groei. „Ook al zouden Microsoft en Oracle hun software met rust laten, dan nog zou de opslagbehoefte gewoon blijven groeien, zegt Claus Egge van IDC. De opslag groeit bijvoorbeeld ook omdat het vaak handig is als gegevens op twee plaatsen tegelijk beschikbaar zijn. „Als je een geografisch verspreid intranet hebt, is het soms goedkoper een database te repliceren, dan hem over een lange afstand per lijnverbinding te benaderen”, zegt Egge. Een variant hierop is web-caching, het op meer plaatsen beschikbaar stellen van dezelfde informatie op het Internet, om zo
de frequente vertragingen door bandbreedteproblemen te verminderen.

Elektronische handel en het daarvoor op grote schaal bijhouden van klantengegevens zijn een andere aanjager van de opslagbehoeften. In het verlengde daarvan ligt data warehousing. Analist Wolfgang Martin van Meta Group ziet dat verschijnsel fors groeien, al zal de term ’datawarehousing’ zelf waarschijnlijk verdwijnen. „Het gaan om de informatiestroom, niet om de opslag”, zegt Martin. Hij prefereert de term ’Information Supply Chain’, voor de verzameling informatie die parallel loopt aan de de logistieke keten van bedrijven. Elektronische handel, het beheer van klantengegevens (CRM) en het gebruik van analytische toepassingen vergen een grotere en gedifferentieerde opslag. Klantengegevens kunnen in een dergelijke datawarehouse-architectuur wel 4 of
5 keer opgeslagen zijn: de oorspronkelijke database(s), een operationele gegevensopslag voor rapportagedoeleinden, een gegevenspakhuis voor productiedoeleinden, een gegevenspakhuis voor exploratiedoeleinden (bijvoorbeeld om het nut van nieuwe datamarts op te sporen) en gespecialiseerde datamarts voor analytische doeleinden. Al deze opslagvarianten moeten in een overzichtelijke architectuur met elkaar verbonden zijn.
Nog een oorzaak van de opslaghausse is het verschijnsel ERP. De ERP-software maakt het mogelijk veel meer bedrijfsgegevens bij te houden dan met de oudere pakketten gebeurde. „Instinctief hebben bedrijven de laatste tijd die informatie vaak wel opgeslagen, maar pas nu blijken ze
er door de diverse analytische toepassingen ook werkelijk wat mee te kunnen”, aldus Claus Egge.
Het jaar 2000 en de euro zijn ook medeverantwoordelijk voor de opslaggroei. Voor het testen, respectievelijk ontwikkelen van toepassingen zijn realistische dataomgevingen nodig en die vragen nu eenmaal opslagcapaciteit. Ten slotte zijn er nog de nieuwe toepassingen van opslag zelf, zoals de digitalisering van beeldverwerking. Radioloog William Orrison is betrokken bij het Utah Center for Advanced Medical Technology, waar de nieuwste technologische snufjes in de medische praktijk worden uitgeprobeerd. In de strijd tegen borstkanker probeert het centrum bijvoorbeeld een grotendeels digitale diagnostiek te realiseren. Mammografieën worden digitaal opgeslagen, in plaats van op film, en ook door een computer bekeken. Dat systeem blijkt succesvoller in het opsporen van borstkanker, dan artsen die met het blote oog films bekijken. Maar wil het een reëel alternatief zijn voor een doorsnee ziekenhuis, dan zal dat moeten zorgen voor een jaarlijkse opslag van 3 tot 5 terabyte (vijfduizend gigabyte) en zal het vanwege de noodzaak een medische historie bij te houden een totale capaciteit van meer dan 50 terabyte beschikbaar moeten hebben. „Dat zie
ik nu de leveranciers nog niet realiseren”, zegt Orrison. En deze toepassing betreft dan nog alleen de mammografieën – in de medische omgeving zijn meer van dit soort toepassingen denkbaar.
Opslagleveranciers hebben zich jarenlang ge-
concentreerd op het vergroten van de capaciteiten van schijven en tapes, met bijvoorbeeld hogere informatiedichtheden per vierkante centimeter en met compressietechnieken. Maar opslag is niet alleen een kwestie van capaciteit. „Eigenlijk hebben de leveranciers niet genoeg gedaan”, zegt analist Will Capelli van Giga Information Group. „Opslagtechnologie is veel minder veranderd
dan de andere onderdelen van IT. De opslagleveranciers waren een beetje bijziend.”
Bedrijfskritische systemen draaien al lang niet meer alleen op het mainframe. Ook de Unix-varianten en zelfs Netware en NT hebben zich een plaatsje verworven in het rekencentrum, al was het alleen maar omdat systemen die zich in dezelfde ruimte bevinden goedkoper te beheren zijn. De opslagsystemen zijn daarbij hoofdzakelijk aan hun eigen server-platform verbonden gebleven. De opkomst van gedistribueerde heterogene systemen heeft het beheer van al die gegevensverzamelingen echter steeds complexer gemaakt. Het kan voorkomen dat een applicatie moet putten uit vijf databases op verschillende soorten opslagmedia die op servers met verschillende besturingssystemen zijn aangesloten. Dat levert een enorm beheerprobleem op.
De leveranciers hebben dat probleem inmiddels onderkend. Zij komen bijvoorbeeld met virtuele opslagarchitecturen, die zijn gebaseerd op het onderscheid tussen logische en fysieke opslageenheden. Storagetek maakt het met zijn nieuwste technologie bijvoorbeeld mogelijk 1024 logische opslagvolumes te creëren in een enkele opslagkast. Gegevens voor OS/390 en voor Unix-systemen kunnen elk hun eigen opslagcapaciteit toebedeeld krijgen, zonder iets uit te hoeven schakelen. EMC maakt zijn schijfsystemen ook stapje voor stapje ’opener’.

Dergelijke initiatieven hebben vooral geleid tot een flexibeler en efficiënter gebruik van de opslaghardware, maar nog nauwelijks tot het efficiënter gebruiken van de opgeslagen gegevens zelf. Een ander probleem is de steeds kleiner wordende tijd voor het maken van back-ups van server-gegevens. De systemen moeten namelijk steeds meer uren per dag ’in de lucht’ zijn. Aan de andere kant neemt de hoeveelheid gegevens sneller toe dan de bandbreedte van het netwerk dat voor de back-up gebruikt wordt.
Een inmiddels breed gepropageerde oplossing voor zowel het beheers- als het back-up-probleem is het zogenaamde Storage Area Network (San). Dit behelst een geschakeld netwerk dat ten eerste geheel op opslagbehoeften is afgestemd en ten tweede de basis legt voor een geheel open opslag, waarin de gegevens zelf kunnen worden gedeeld door verschillende platforms en toepassingen.
(Zie kader)
Openheid en standaarden in opslagsystemen lijken steeds dichterbij te komen. Leveranciers van hard- en software sluiten allianties om gezamenlijk ’opslagoplossingen’ te kunnen aanbieden. Daarnaast zijn er pogingen tot standaarden voor opslagnetwerken te komen – geen overbodige luxe, want de term wordt door de verschillende leveranciers nogal in hun eigen voordeel uitgelegd.
Een recent initiatief is de poging een standaard vast te stellen voor Storage Area Networks. HP, Compaq, Dell, EMC, IBM, Storagetek, Sequent, Sun, Broccade, Legato en Veritas hebben besloten deel te gaan uitmaken van de SNIA (Storage
Networking Industry Association). Binnen dat verband werken zij aan een standaard voor San’s, die de interoperabiliteit, beheermogelijkheden
en uitwisselbaarheid van opslagproducten moet vergroten.
Storagetek-gebruiker Charles Inches van de Zwitserse Corner Bank ziet overigens niets in die standaard. „Het is bullshit. Niet dat ik iets tegen standaarden heb, maar ik verwacht niets van dit soort initiatieven. Ik moet de beloofde producten nog zien aan het eind van dit jaar.”

Opslag wordt ook steeds meer een software-aangelegenheid. Het beheer van de steeds complexer wordende opslagarchitecturen vormt een grote uitdaging voor de opslagleveranciers. Softwareleveranciers als Legato en Veritas specialiseren zich al in opslagbeheer.
EMC-topman Mike Ruettgers besloot in 1994 een miljard dollar te steken in het ontwikkelen van software die de EMC-opslagsystemen compatibel moest maken met verschillende soorten servers. Ook vice-president Roger Archibald van Storagetek benadrukt het belang van software: „Bijna de helft van onze R&D steken we in software. We zijn bijvoorbeeld bezig de microcode die nu in dedicated processoren in de opslagsystemen draait, om te zetten naar standaardprogrammatuur die ook op de computer kan draaien.”
Storage Area Network

Het Storage Area Network (San) is een apart netwerk voor (het merendeel van) de opslagapparatuur, zoals schijfsystemen (Raids) en tape-robots, die anders van het primaire Lan gebruik zouden maken. Het San heeft zijn eigen Fibre Channel-netwerk, met zijn eigen hubs en switches. Het – zeer belangrijke – beheer van die netwerk vindt plaats vanaf in het San opgenomen opslag-servers.
Fibre Channel is een gegevenstransport- en -interface-technologie
die verschillende transportprotocollen zoals IP en SCSI vertaalt en die hogesnelheids-I/O en netwerkfunctionaliteit in één technologie verenigt. Fibre Channel (FC) werkt via koper- en glasvezelverbindingen over afstanden tot 10 kilometer, aanzienlijk meer dan bijvoorbeeld SCSI-verbindingen, die maar enkele meters kunnen overbruggen. FC werkt met grote ’packets’ en is daardoor ideaal voor opslagtoepassingen, video en gegevenstransport. FC heeft een bandbreedte van 100 megabytes per seconde, terwijl SCSI momenteel 40 MB per seconde aankan. FC is een Iso/Ansi-standaard.
De voordelen van het gebruik van dit gescheiden opslagnetwerk zijn legio:
- Het San is door de FC-technologie veel sneller dan het Lan.
- De opslagsystemen kunnen door verschillende servers aangesproken worden. In de toekomst zullen zelfs de gegevens op die systemen vanaf verschillende server-platforms toegankelijk zijn.
- Het reguliere Lan-netwerk (bijvoorbeeld een Ethernet-Lan van 10 MB per seconde) wordt ontlast en heeft niet meer te lijden van bijvoorbeeld back-up-procedures.
- Het San maakt de opslag flexibeler en makkelijker uitbreidbaar. Ook verder uit elkaar gelegen locaties passen nu binnen dezelfde opslagarchitectuur.

Met het simpelweg in gebruik nemen van een FC-netwerk in combinatie met opslagapparatuur met een FC-interface heeft men overigens nog geen San. Gartner Group benadrukt dat dit nog niet meer dan het ’loodgieterswerk’ is. Het echte San-voordeel valt pas uit een dergelijk netwerk te halen middels een tweede laag, die hoofdzakelijk bestaat uit beheersoftware die het uiterste uit de geboden mogelijkheden haalt.
Een plotselinge overstap naar een San is ook geen reële optie. Luis Praxmarer van Meta Group: „Ik raad geen plotselinge overstap naar een San aan. Wel moeten grote gebruikers er een plan voor hebben. Bij iedere vervanging of uitbreiding van hun opslagomgeving kunnen
ze dan beslissen of ze een San-gerichte of gewoon een bedrijfseigen aanschaf doen. Je moet pragmatisch blijven.”
Opslagmarkt

De marktverhoudingen in opslagsystemen zijn niet altijd even duidelijk. Onderscheid kan worden gemaakt tussen bijvoorbeeld leveranciers van schijf- en tape-opslagsystemen, tussen drive-leveranciers en bouwers van Raids en ’libraries’ of tussen hardware-, software- en nu ook dienstenleveranciers. Onderling hebben de bedrijven ook OEM-overeenkomsten, zoals IBM, die drives levert aan EMC en Storagetek. IDC onderscheidt – om een indruk te geven – de volgende marktleiders in schijfopslagsystemen, waarin het meeste geld omgaat:

Omzet in schijfopslagsystemen
in miljarden dollars
1997 1998

1 Compaq 4,9 5,5
2 IBM 3,9 4,0
3 EMC 2,4 3,2
4 Sun 1,7 1,9
5 HP 1,6 1,8
6 Hitachi - 1,4
7 Dell - 0,9

De totale markt voor schijfopslagsystemen was volgens IDC in 1998 27,7 miljard dollar groot. De markt voor tape-opslagsystemen steekt daarbij met een omvang van 3,3 miljard dollar wat schril bij af. HP, Seagate, Iomega, Quantum en Sony maken daar de dienst uit, aldus IDC.
De bedrijven die zich puur met opslagsystemen bezighouden, zijn EMC en Storagetek. Volgens Gartner Group zetten deze twee samen met IBM de toon op opslaggebied.

Omzet in 1998
in miljarden dollars:

IBM Storage Division 7,04 (23 % groei)
(alleen hardware)
EMC 3,97 (33 % groei)
Storagetek 2,26 (5 % groei)

Storagetek en EMC worden meestal in een adem genoemd, maar zijn nogal verschillende ondernemingen. Storagetek is in hoofdzaak leverancier van tapedrives en
-libraries (robots) voor OS/390-mainframes en behaalt met systemen en applicaties op dat gebied bijna tweederde van zijn omzet. EMC houdt zich puur bezig met disk-opslag en behaalt drievijfde van zijn opslag in niet-mainframe-systemen. ’Al je eieren in één mandje stoppen’ is volgens EMC de juiste strategie; homogeniteit Storagetek huldigt echter het argument dat tape-opslag per megabyte altijd vele malen goedkoper blijft dan schijfopslag en voor sommige doeleinden (bijvoorbeeld back-up) de betere oplossing blijft.

Dienstverlening

Met de toenemende complexiteit van de gemiddelde opslagarchitectuur in grotere bedrijven zal de markt voor diensten op opslaggebied flink groeien. Analist Will Capelli maant afnemers van die diensten echter tot voorzichtigheid. „Iedereen zal erop inspringen. Voor implementatie, beheer en integratie is veel mankracht nodig. Maar er is weinig echte opslagexpertise voorhanden.” Bijvoorbeeld de ’big five’ zullen daar niet gauw in kunnen voorzien. „Gebruikers doen er voorlopig goed aan
te vertrouwen op de opslagleveranciers
die al enige ervaring hebben met dienstverlening.”
 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Neem contact met ons op!