Innovatie & Strategie

Analytics
Kruiwagen

Bedenk tijdig waar u uw Big Data laat

Datatransmissie is een no-brainer, toch? Nou, niet als je het over Big Data hebt.

© CC0,  Pixabay
30 oktober 2015

 

Datatransmissie is voor de meeste organisaties gesneden koek. Dat wordt anders wanneer men met Big Data gaat werken. Zelfs de bandbreedte van glasvezelverbindingen blijkt dan een beperkende factor te worden. Wanneer het gaat om petabytes (10 tot de macht 15 bytes) aan data, dan vallen snelheden van 10 gigabits per seconde – wat al een heel zware dataverbinding mag heten – eigenlijk in het niet.

De beperkte bandbreedte is niet het enige obstakel voor het transporteren van grote hoeveelheden data. Ook de apparatuur aan beide zijden moet in staat zijn om het datatransport mogelijk te maken. De vraag is ook hoeveel informatie per tijdseenheid uit de bron kan worden gehaald en hoeveel er op het doelsysteem per tijdseenheid kan worden opgeslagen.

De keten kan ruwweg in drie stukken worden gesplitst: het bronsysteem, het transmissiemedium en het doelsysteem. Elk van die onderdelen heeft een eigen maximale snelheid, met als vuistregel dat gegevens sneller vanuit een computer gehaald kunnen dan dat ze erin geschreven kunnen worden. Typische leessnelheden liggen in de buurt van de 100 à 200 MB/sec. Wie deze snelheden te laag vindt, kan kiezen voor een all-flash opslagsysteem, waarbij de snelheden een factor 2 tot 3 hoger kunnen liggen. Daar staat dan wel weer een hogere prijs tegenover. De schrijfsnelheden van zowel harddisks als SSD’s liggen wat ­onder de leessnelheden, wat van belang is voor de ontvangende kant van de overdrachtsketen.

Uiteraard is het mogelijk om een aantal disks parallel te gebruiken, waardoor de overdrachtssnelheid toeneemt. Aan de zendkant kan dat ook, waarbij elke diskdrive wordt gekoppeld aan een ander kanaal van de apparatuur die zorgt voor het aansturen van de glasvezelkabel. Elk kanaal krijgt een eigen kleur laserlicht, die aan het eind van de verbinding weer uitgesorteerd wordt. Hier hangt wel een prijskaartje aan; elk kanaal vereist aparte elektronica om de digitale gegevens om te zetten in lichtpulsen. Reken hier op een paar honderd dollar per kanaal. Bij korte kabelsegmenten hoeft de portemonnee niet verder open, maar bij kabels die langer zijn dan circa 100 kilometer zal voor elke kleur een tussenversterker gebruikt moeten worden. Aanbieders van netwerkcapaciteit verdisconteren die kosten in de totaalprijs die ze opgeven voor een bepaald verbinding.

 

Verschillen in kosten

De netwerkkosten zijn niet overal op de wereld gelijk, blijkt uit onderzoek van netwerkexploitant CloudFlare. In Europa bedragen de kosten voor een verbinding per Mbps per maand 5 dollar. Dat is relatief laag, doordat de afstanden in ons werelddeel niet al te groot zijn en er dus weinig behoefte is aan tussenversterkers. Verkijk je overigens niet op dat aantrekkelijk ogende bedrag van 5 dollar. Want een bedrijf dat 1 ­gigabit per seconde wil hebben, betaalt per maand dus 5000 dollar. In Noord-Amerika, waar de afstanden groter zijn, geldt een basistarief van 8 dollar per Mbps per maand. In Azië moet worden gerekend op 32 dollar per Mbps per maand. Datzelfde bedrag wordt ook in Latijns-Amerika in rekening gebracht. Australië, ten slotte, spant de kroon met 100 dollar per Mbps per maand. Wanneer data door een aantal continenten worden verstuurd zal een gestapeld tarief worden ­berekend, afhankelijk van de afstanden die per werelddeel worden ­overbrugd.

Met alleen de kale kosten voor bandbreedte is het financiële plaatje nog niet rond. Vooral cloudleveranciers hebben er een handje van om geld te vragen wanneer data uit hun cloud worden gehaald om elders op te slaan. Voorts worden kleine hoeveelheden data wel op volle snelheid aangeleverd, maar wordt de verbinding geknepen boven een bepaalde grens. Hoe meer data een bedrijf opvraagt, des te trager gaat het. Het argument is dan, dat anders de levering van data aan andere klanten in gevaar komt doordat één partij vrijwel alle beschikbare capaciteit opeist.

Hoeveel kosten in rekening worden gebracht bij het terughalen van ­data uit de cloud is afhankelijk van het contract. Om een voorbeeld te geven: Amazon Web Services berekent geen kosten voor het terughalen van 1 gigabyte per maand. Wordt er meer teruggehaald, tot 10 terabyte, dan kost dat 9 dollarcent per gigabyte. Wordt er meer dan 350 TB teruggehaald, dan kost dat 5 dollarcent per gigabyte. Bij nog grotere hoeveelheden wil AWS dat de klant even contact opneemt over de kosten.

 

Alles op één plaats

Als een bedrijf de beslissing neemt om zijn Big Data op één plaats op te slaan is het nog de vraag op welke plaats en welke apparatuur daar moet komen te staan. De basiskeuze is simpel: of alles in huis of alles in de cloud. Een eventuele mengvorm kan ook, hoewel dan weer rekening moet worden gehouden met de verbinding tussen die twee plekken.

Aanbieders van storage in de cloud overtreffen elkaar met lage en nog lagere prijzen voor opslag. Zo hanteert Backblaze voor zijn B2 Cloud Storage een tarief van een halve dollarcent per GB per maand. Het uploaden van data is gratis, downloaden kost 5 dollarcent per gigabyte. ­Opslag van 1 terabyte kost dus 5 dollar per maand.

Het alternatief is opslag in eigen huis, waarvoor een serverruimte ingericht zal moeten worden. Hoeveel dat precies kost is afhankelijk van de wensen. Puur naar de apparatuur gekeken kan een berekening worden ­gemaakt. EMC biedt zijn Isilon NAS, met een capaciteit van 15 petabyte, aan voor een bedrag van 123.500 dollar. De opslagkosten per terabyte liggen daarmee op 8,23 dollar. Hoeveel dat per maand wordt, is afhankelijk van de termijn waarop het systeem wordt afgeschreven. Kiest een bedrijf voor 5 jaar (dus 60 maanden) dan komt het uit op iets meer dan 13 dollarcent per maand. Bovendien kost het niets extra om gegevens te downloaden. Maar in die berekening is geen rekening gehouden met gebruikskosten, zoals de prijzen die betaald moeten worden voor voeding, ­koeling, huisvesting en personeel. Bij de cloudaanbieder zit dat ­allemaal in de totaalprijs.

Big Data terughalen. Wat kost dat?

 

De prijs voor downloadvolumes boven de halve petabyte is op aanvraag. De staffelkortingen waarop bovenstaande prijzen zijn gebaseerd, gelden een maand. 500 terabyte downloaden binnen een maand vergt een dataverbinding van 15,5 Gbps.Genoemde aanbieders brengen ook handlingkosten in rekening waarvan de kostenstructuur zich lastig laat weergeven in een ­overzicht. Het meest inzichtelijke voorbeeld is Backblaze: dat brengt vanaf het 2501e bestand 0,04 dollarcent handlingkosten per bestand in rekening.

Data sneller per schip

2007 Jonathan Schwartz, destijds CEO van Sun Microsystems, baarde in 2007 opzien met zijn stelling dat je 1 petabyte aan data beter per schip kon vervoeren – en dat ook nog eens per zeilboot – dan over de lijn. Schwartz had het over het traject San ­Francisco naar Hong Kong, een afstand van ruim 11.000 kilometer. De doorsnee bandbreedte was toen in de VS circa een half megabit per seconde. Schwartz rekende voor dat het overdragen van 1 petabyte dan 266 miljoen minuten ofwel 507 jaar zou kosten. Snellere verbindingen, tot 100 Mb/sec, bestonden al wel maar langs die weg zou het nog ruim twee jaar kosten om de petabyte naar de andere kant van de oceaan te krijgen. Een zeilschip haalt met ­gunstige wind zo’n 20 knopen (36 kilometer per uur), waarmee de afstand in ­ongeveer dertien dagen kan worden afgelegd.

2015 De doorsnee bandbreedte nu ligt op die 100 Mb per seconde. Er zijn ook snellere verbindingen. Ciena biedt bijvoorbeeld een snelheid van 100 Gb/sec over een afstand van meer dan 10.000 kilometer. Daarmee kan 1 petabyte in iets minder dan een dag (22,22 uur) verstuurd worden. Het zeilschip haalt in die tijd maximaal 800 kilometer. Op het traject San Francisco - HongKong is het zeilschip pas weer sneller vanaf 14 petabyte. Overigens: als Schwartz’ petabyte meegegroeid was met de gemiddelde jaarlijkse groei van het datavolumes, zou die nu 15 petabyte zijn.

Per koerier kan ook

Amazon Web Services (AWS) heeft een oplossing bedacht om relatief grote hoeveelheden data naar zijn cloud te brengen: de Snowball, een koffer met een gewicht van 22,6 ­kilo die 50 terabyte kan opslaan. Een Snowball kan gegevens met 10 gigabyte per seconde laden.De behuizing van de Snowball is zeer robuust en het apparaat kan zonder extra verpakkingsmateriaal worden meegegeven aan een koeriersdienst. Niemand kan ongemerkt van buitenaf de data ­benaderen.­ Bovendien wordt gebruik gemaakt van encryptie met een ­sleutellengte van 256 bits. Hoewel ook het aanleveren van de Snowball enkele dagen in beslag neemt, is dat nog altijd sneller dan die data verzenden via een netwerk. AWS hanteert als vuistregel dat het versturen van 50 TB via een verbinding van 100 Mb/sec 50 dagen in beslag neemt. Gebruik van de Snowball kost 200 dollar per koffer, inclusief handling, maar exclusief verzendkosten. Verzenden van 50 terabyte via een netwerk kan een paar duizend dollar kosten, zo berekent AWS.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!