Beheer

Het datalakehouse als oplossing
Als datalakes en datawarehouses niet volstaan
Als datalakes en datawarehouses niet volstaan
Een duurzame en veerkrachtige concurrentiepositie vereist tegenwoordig een volwassen data-organisatie. Dat betekent dat een bedrijf alle beschikbare data efficiënt en gestructureerd moet kunnen benutten om de besluitvorming binnen de gehele organisatie te verbeteren. En dat vereist een future-proof fundament. Datalakes en datawarehouses volstaan niet voor een volwassen data- en analytics-strategie. Pieter Senster ziet veel meer in het datalakehouse.
Een data-organisatie kan niet volwassen worden zonder een fundament dat dit groeiproces ondersteunt. Het is dan ook geen verrassing dat volgens een recent MIT-onderzoek[1] het overgrote deel van de ondervraagde CIO’s een verenigd dataplatform als prioriteit stelt.
Warenhuizen
Een dataplatform kan uiteenlopende vormen aannemen, maar in de basis zijn er maar een paar smaken waar een organisatie uit kan kiezen. Ten eerste is er het oude, vertrouwde datawarehouse. Bedrijven maken al decennialang gebruik van deze architectuur, omdat het gestructureerde karakter perfect is voor gestandaardiseerde data-opslag voor rapportage en data-analyse.
Deze structuur en standaardisatie vormen tegelijkertijd het grote nadeel van een datawarehouse. Met ongestructureerde data kan deze architectuur niet overweg. Visuele media kun je bijvoorbeeld dus vergeten. Dit maakt datawarehouses inflexibel en lastig schaalbaar. Alle data moeten immers volgens eenzelfde stramien worden ingevoerd, wat nu eenmaal tijd en moeite kost. Het gevolg is dat het datawarehouse tekort schiet in use cases buiten data analytics en business intelligence.
Meren
Aan het begin van het millennium hadden organisaties verschillende databases nodig om hun gestructureerde en ongestructureerde data op te slaan en te beheren. Maar dat zorgt voor silo’s in de organisatie die samenwerking en opschaling belemmeren. Zeker gezien de exponentiële stijging van de hoeveelheid ongestructureerde data dankzij het internet (of things), ontstond een dringende behoefte aan het samenvoegen van al die verschillende databases.
Dit leidde tot de opkomst van data lakes: een opslagarchitectuur waarin grote hoeveelheden ongestructureerde én gestructureerde data een stuk goedkoper kunnen worden opgeslagen dan in een datawarehouse. Deze kostenefficiëntie en flexibiliteit om met alle typen data te werken, is niet alleen ideaal om kattenvideo’s op te slaan, maar ook voor een andere populaire ontwikkeling: kunstmatige intelligentie. Omdat data onbewerkt in datalakes worden opgeslagen, kun je er makkelijker machinelearning- en deeplearningalgoritmes op loslaten. Door het open, onbewerkte karakter van data lakes, leent deze architectuur zich ook voor andere typen datawetenschap waar big data centraal staat.
Datalakes hebben ook een belangrijk nadeel. Je raadt het al: datalakes presteren niet goed op het gebied van business intelligence en data analytics, omdat die use cases meer structuur nodig hebben dan een datalake kan bieden.
Wanneer kies je nu voor welke architectuur? Dat hangt helemaal af van je bedrijfsbehoeften.
Het datawarehouse draait om functionaliteit en performance, de mogelijkheid om data op te nemen uit databases, ze te transformeren tot iets bruikbaars en vervolgens de getransformeerde data door te sturen naar business intelligence- en analyticstoepassingen.
Een datawarehousearchitectuur vereist wel dat data van tevoren moeten kunnen worden gestructureerd en use cases op voorhand moeten kunnen worden gedefinieerd. Dat werkt simpelweg niet voor toepassingsgebieden als big data. Voor de wereld van big data en ML-modellering heb je een datalake nodig, waarbij je niet vast zit aan strak gedefinieerde use cases en datastramienen.
Onmogelijke keuze
Uiteindelijk is de keuze tussen een datalake en een datawarehouse onmogelijk. Noch een datalake, noch een datawarehouse kan alleen op zichzelf een volwassen data- en analytics-strategie ondersteunen. Zonder een datalake mis je de boot voor moderne datatechnieken en zonder de structuur van een datawarehouse kan je datalake veranderen in een onbeheersbaar moeras. Je ziet dan ook vaak dat beide architecturen naast elkaar bestaan. Organisaties hebben dan een data lake, enkele datawarehouses en andere gespecialiseerde systemen voor bijvoorbeeld grafenanalyse. Deze opzet is functioneel, maar kostbaar. Je moet immers meerdere architecturen en datasets onderhouden. Het zorgt ook voor complexiteit en vertraging, omdat datateams continu data moeten overhevelen of kopiëren tussen de verschillende systemen, waardoor ze het overzicht en de controle over het gebruik van data verliezen.
Een huisje aan het water
Een combinatie van een datawarehouse en datalake levert uiteindelijk niet het verenigde dataplatform op dat een moderne dataorganisatie nodig heeft. Dat brengt ons op een nieuwe architectuur, het datalakehouse. Deze architectuur is de afgelopen jaren in rap tempo doorontwikkeld en is een combinatie van de beste functionaliteiten van een datawarehouse en een datalake.
Een lakehouse voorkomt dataduplicatie door alle data op één enkel platform te beheren, op basis van kostenefficiënte datalake-achtige opslag. Daarbovenop is een laag gebouwd die ondersteuning biedt aan allerlei workloads, of het nu datawetenschap is of business intelligence. Uiteindelijk ligt de optimale route naar datavolwassenheid dus in de acceptatie van de datalakehouse-architectuur.
Dat is natuurlijk makkelijker gezegd dan gedaan. Want hoewel het voor veel bedrijven aantrekkelijk is om over te stappen van legacy IT-systemen naar moderne architecturen, is het ook erg uitdagend. Net als ieder transformatietraject is het aan te raden om klein te beginnen bij een specifieke use case of bedrijfsonderdeel en van daaruit op te schalen.
Als je een datalakehouse van de grond af opbouwt, begin je concreet bij het definiëren van de ingestie-laag waar alle verschillende bronnen aan worden gekoppeld (van databases tot sensordata). Bovenop deze ingestie-laag ligt een datalake waar alle inkomende data worden opgeslagen. Daarbij is het belangrijk dat de data niet zomaar in het datalake worden geladen, maar toch enige structuur meekrijgen. Dat kan bijvoorbeeld volgens de medaille-architectuur, waarbij verschillende datagroepen (brons, zilver, goud) een oplopende mate van structuur meekrijgen. Op het datalake komt vervolgens een governancelaag, waarmee verschillende gebruikersgroepen en toolsets worden gekoppeld aan bepaalde data. De bovenste laag bevat tot slot de tooling voor de daadwerkelijke use cases, zoals business intelligence en machine learning.
Richtlijnen
Als fundament voor een volwassen en schaalbare data-organisatie moet een dataplatform niet alleen de huidige vraag aankunnen, maar ook gelijke tred houden met toekomstige ontwikkelingen. Het is dan ook belangrijk dat bij de opbouw van een lakehouse de volgende richtlijnen worden gevolgd:
- Democratisering: hoe groter het aantal werknemers in een organisatie dat algoritmen kan bewerken, hoe waarschijnlijker het succes van datagedreven innovaties. "Citizen data scientists" - werknemers die met data kunnen omgaan, maar geen specialistische datawetenschappers zijn - kunnen daarin een sleutelrol spelen, zeker gezien het gebrek aan AI-specialisten en datawetenschappers op de arbeidsmarkt.
- Openheid: De toekomst van datagedreven werken, en dan met name AI, heeft ontzettend veel baat bij open samenwerking. Toekomstig succes in AI-innovatie is deels afhankelijk van externe data, kennis en tooling. Maar dat kan niet zonder een platform dat open standaarden en formats ondersteunt.
- Multi-cloud. Een multi-cloud-aanpak kan vanwege de inherente complexiteit uitdagender zijn om te beheren, maar evoluerende tooling zoals MLOps neemt steeds meer van die complexiteit weg. Dat betekent dat niets bedrijven in de weg staat om multicloudomgevingen op te zetten voor maximale flexibiliteit – en minimale vendor lock-in.
[1] MIT Technology Review Insights (2022). CIO vision 2025: Bridging the gap between BI and AI.
Zo’n datalakehouse klinkt mooi, maar wat levert het nou op? Daarvoor moet je kijken naar data-organisaties die al op lakehouses draaien. Organisaties zoals SEGA Europe, die een lakehouse gebruiken om hun retentie van gamers te verhogen. Het bedrijf verzamelt nu meer dan 600 soorten data uit ruim 80 games, met meer dan 10.000 data-events per seconde – cruciale data voor het personaliseren van de communicatie met gamers, het verbeteren van de spelbalans en het identificeren van speelstijlen voor toekomstige ontwikkeling.
Een ander voorbeeld is Jumbo, dat een lakehouse-architectuur volledig heeft geïntegreerd in zijn datawerkzaamheden. De ingestie-laag is gekoppeld aan uiteenlopende systemen, zodat ze bijvoorbeeld real-time analytics over inkopen tot hun beschikking hebben, die Jumbo kan combineren met verkoopgegevens uit zijn filialen om lege schappen te voorkomen zonder voedselverspilling in de hand te werken door te veel voorraad in te slaan. Naast deze gestructureerde analytics, gebruikt Jumbo bijvoorbeeld ook AI-gedreven computerlinguïstiek (NLP) om klantfeedback te analyseren zodat afdelingen efficiënter en effectiever kunnen verbeteren.
Data-organisaties moeten snel volwassen worden om optimaal gebruik te maken van hun huidige data én sneller mee te kunnen bewegen in toekomstige ontwikkelingen. Ja, de migratie naar een moderne architectuur zoals een datalakehouse vergt een forse (tijds)investering. Maar het is een investering in de toekomst, die zich terugbetaalt in tijdwinst, productiviteit – en meer plezier in werken met data.
Dit artikel is ook gepubliceerd in het magazine van AG Connect (januari 2023). Wil je alle artikelen uit dit nummer lezen, zie dan de inhoudsopgave.
is Engineering Director bij Databricks.