Development

Analytics
Hadoop

Zo maak je van Hadoop een succes

7 veelgemaakte fouten bij implementatie van Hadoop, en hoe je ze voorkomt

12 juni 2017

7 veelgemaakte fouten bij implementatie van Hadoop, en hoe je ze voorkomt

Hadoop is een krachtig gereedschap, maar het is ook heel anders dan waaraan bedrijven gewend zijn. Hadoop-projecten zijn daardoor 'nogal een uitdaging'.

Hadoop-implementaties gaan soms spectaculair mis. Wael Elrifai, senior director Sales Engineering bij Pentaho, inventariseerde voor ITProPortal bij collega’s en klanten, waar een Hadoop-project het makkelijkst de bietenbrug op gaat.

1. Alvast alles migreren voordat er een plan is

Hadoop heeft een steile leercurve; het is dus verstandig om planmatig te werk te gaan, met een duidelijke omschrijving vooraf van doelen, data-eisen, de manier waarop data-analyse geregeld wordt, systemen die daarbij betrokken zijn etc. Het is daarbij zaak klein te beginnen, maar wel met een project waar de toegevoegde waarde voor de organisatie duidelijk van is. Daarmee voorkom je ook dat je opgescheept raakt met een lastig onderhoudbaar systeem.

2. Aannemen dat kennis van relationele databases voldoende is

Hadoop is geen relationele database, het is een gedistribueerd bestandssysteem. Je kunt er niet op voorhand van uitgaan dat iemand die relationeel van wanten weet, geschikt is om zo’n gedistribueerd systeem te beheren. Naar alle waarschijnlijkheid moet je nieuwe expertise inhuren. Het kan geen kwaad om ook naar tooling re kijken op het vlak van routinetaken als gegevens laden en voorbereiden voor verwerking. Het aanbod daarvan neemt toe.

3. Hadoop behandelen als een reguliere database

Hadoop is niet gebouwd om zaken in reguliere vorm op te slaan. Je kunt het betere vergelijken met een Lego-bouwdoos: alle onderdelen om bijvoorbeeld een robot te bouwen zijn aanwezig, maar het is geen robot in een doosje.

Bij Hadoop kun je het overzicht over de verschillende gegevens in je datalake, de bronnen die ze aanleveren en de verschillen daartussen makkelijk kwijtraken. En het gevaar van onhandige laadprocedures ligt op de loer. Daarover van te voren goed nadenken betaalt zich dubbel en dwars terug in de onderhoudbaarheid en inzichtelijkheid van de implementatie.

4. Beveiliging achteraf regelen

Big data bevatten al snel ook gevoelige data. De beveiliging van die data moet vooraf geregeld zijn, als je er zeker van wilt zijn dat jouw bedrijf niet gaat figureren in de lijst met spectaculaire datalekken. Dat betekent vooraf vastleggen wie toegang heeft tot welke data, maar ook investeren in tooling om de Hadoop-implementatie te monitoren en vast te leggen wat er precies gebeurt.

5. Ontbreken van een business case

Hadoop implementeren omdat een invloedrijke collega daarvoor is of als technische exercitie, dat is geen goed idee. Van tevoren moet duidelijk zijn welke bedrijfsdoelen je wilt bereiken, wie daarvan profiteert en hoe je de investering rechtvaardigt.

6. Onvoldoende kennis van de eisen aan data-import

Aan Extraction, Transformation en Load-functionaliteit worden zwaardere eisen gesteld bij Hadoop-implementaties. De kennis op dit terrein is nog redelijk schaars. Technologie kan helpen; zeker voor grote toepassingen kan een zwaar ETL-tool van groot nut zijn. Maar het is een terrein waar de bemensing zeker aandacht behoeft.

7. Hoge verwachtingen koesteren bij een klein budget

De schaalbaarheid van Hadoop tegen lage kosten is één van zijn aantrekkelijke kanten. Maar je moet ook weer niet beknibbelen. Om de vruchten ervan te plukken, moet j investeren in kennis en kunde van dit gedistribueerde systeem. Ook de opslagvereisten worden vaak onderschat. Hadoop repliceert databestanden automatisch – dat maakt Hadoop zo krachtig. Maar dat betekent wel dat je databestanden met een factor 3 groeien na laden in Hadoop. Dat kun je wel tegengaan met compressie, maar dat gaat dan te koste van de prestaties – wat het van belang maakt om medewerkers met vaardigheden op dat vlak in te huren.

Lees meer over
Lees meer over Development OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.