Innovatie & Strategie

Analytics

Big Data, hoe groot is ‘groot’?

9 november 2011

De toename bestaat uit verschillende typen data, gestructureerd en ongestructureerd en in verschillende hoeveelheden. Aan de bovenkant van de range worden we geconfronteerd met een fenomeen dat in de VS gemakshalve wordt aangeduid met Big Data.

Het is te vertalen door Grote Gegevens(hoeveelheden) in het Nederlands, maar hoe groot is groot dan precies? Iemand kan zeggen dat een paard groot is, maar wie naast een olifant staat zal dat toch met een korreltje zout nemen.

IDC hanteert een definitie die niet alleen betrekking heeft op de gegevens zelf, maar ook op het gebruik dat ervan wordt gemaakt. Daardoor is Big Data “het werkgebied van een nieuwe generatie hulpmiddelen die de gebruiker in staat stellen om zinvolle informatie te halen uit grote hoeveelheden gegevens en dat op een manier die zo snel en goedkoop mogelijk is.”

Organisatie-adviesbureau McKinsey heeft een uitgebreid onderzoek gedaan naar Big Data en de onderzoekers stellen vast dat het hier om een glijdend begrip gaat. “De definitie is afhankelijk van het moment en van de branche waarin je kijkt”, aldus de rapporteurs van McKinsey.

Een hoeveelheid gegevens die tegenwoordig het etiket ‘big’ opgeplakt krijgt, kan over een paar jaar als ‘normaal’ worden betiteld. En een datahoeveelheid die in een bepaalde sector ‘normaal’ wordt gevonden, geldt in een andere branche echt als ‘big’. Voorbeeld: in de sterrenkunde wordt gewerkt met radiotelescopen die dagelijks ettelijke terabytes aan gegevens opnemen en doorsturen. In die wereld is dat een normale hoeveelheid, waar de apparatuur en procedures perfect op zijn afgestemd. Wanneer een bank iedere dag zo’n hoeveelheid gegevens te verstouwen zou krijgen, zou paniek ontstaan. In die sector gaan dagelijks veel minder gegevens om.

McKinsey hanteert daarom een meer universele definitie van Big Data, namelijk: “Een hoeveelheid gegevens die de capaciteit van de gebruikelijke databases en die van de software die nodig is voor inlezen, beheer en analyse verre te boven gaat.” Wil een bedrijf dus goed overweg kunnen met Big Data dan zal er aan de hardware of software gesleuteld moeten worden. Het eerste betekent extra opslagsystemen aanschaffen, het tweede zorgt ervoor dat met de bestaande opslagcapaciteit toch gewerkt kan blijven worden. Met andere woorden: er wordt een slimme schifting gemaakt van de data, zodat alleen gegevens overblijven die echt van belang zijn.

Mensen en dingen

De informatie om ons heen wordt gemaakt door mensen en apparaten, in het laatste geval spreekt men wel van “the internet of things”. Door de komst van het nieuwe protocol IPv6 wordt het mogelijk om van alles en nog wat aan te sluiten op internet, wat de opwekking van extra gegevens alleen maar groter maakt.

Een gemiddelde mens laat tijdens zijn dagelijkse doen en laten al een heel spoor van data achter. Bijvoorbeeld wanneer een transactie wordt gedaan bij een geldautomaat, wordt ingecheckt in het openbaar vervoer of wanneer een zoektocht op internet wordt gedaan van pc of mobiel device. Sommige mensen maken zich zorgen over hun privacy, anderen denken dat dat allemaal wel meevalt.

Er zijn niet alleen datasporen die ongemerkt worden achtergelaten, we kunnen er ook wat van op actief gebied. Even iets twitteren, een filmpje uploaden naar YouTube of mededelingen doen op een van de vele sociale netwerken. Al die activiteiten leveren data op, die op de een of andere manier bewaard moet worden. Want degene die twee jaar geleden een filmpje op YouTube heeft gezet rekent er – vanzelfsprekend – op dat hij dat filmpje nu nog steeds aan vrienden en bekenden kan laten zien. Net zoals iemand die twee jaar geleden een digitale banktransactie uitvoerde mag verwachten dat de gegevens daarvan nu nog reproduceerbaar zijn.

Het ‘internet of things’ is een verhaal apart. Steeds meer voorwerpen krijgen een eigen aansluiting op internet en ze zijn langs die weg in staat om gegevens door te sturen. Dat kunnen er soms heel veel zijn, veel meer dan toen er nog geen gebruik werd gemaakt van communicatienetwerken. Een boer die plotseling wordt geconfronteerd met een gegevenshoeveelheid van 200 megabyte per rund, zal best wel even slikken.

De vooruitgang betekent, dat ook de kleinste gebeurtenissen leiden tot datastromen die kunnen aanzwellen en die beslist ingedamd moeten worden om ellende te voorkomen.

In de remote maintenance van computerapparatuur is dat indammen al aan de orde van de dag. Het zal degene die op afstand een datacentrum in de gaten houdt echt worst wezen of er een blok data wordt weggeschreven naar disk nummer 17 in Raid-systeem 04-33 in rack 15. Het wordt pas interessant als blijkt dat dat datablock niet weggeschreven kan worden. Op dat moment moet er een melding worden gedaan, zodat tijdig actie kan worden ondernomen.

Structuur

Een ander aspect van Big Data is dat de gegevens er niet allemaal hetzelfde uitzien. Sommige gegevens zijn duidelijk gestructureerd, andere juist heel ongestructureerd. Het is de kunst om gestructureerde en ongestructureerde gegevens goed met elkaar te combineren, zodat een totaalbeeld ontstaat. De software zal ervoor moeten zorgen dat dat lukt (zie kader 3).

En die software zal gebruikt moeten worden door mensen, die de juiste vragen weten te stellen voor een goed resultaat. McKinsey ziet hier een mogelijke kink in de kabel, omdat daar een schaarste aan het ontstaan is. Kijkend naar de VS is er een duidelijk tekort aan mensen die datahoeveelheden kunnen analyseren. Er zijn gewoon niet genoeg studenten die voor deze analysetaak ingezet kunnen worden. “En”, zo betogen de onderzoekers, “het is ook niet een kunstje dat je ‘even’ kunt leren. Je moet iemand hebben met een goed wiskundig inzicht en die moet vervolgens enkele jaren getraind en opgeleid worden.”

Op korte termijn is er in de VS plaats voor 1,5 miljoen mensen die de analyse van Big Data in hun vingers hebben. De gezamenlijke opleiders zijn in staat om per jaar zo’n 300.000 mensen met die kwalificaties af te leveren. Tot 2018 rekent McKinsey in elk geval op een kloof tussen vraag en aanbod, die geleidelijk kleiner wordt.

Het waarderen van gestructureerde data zal nog het minste probleem opleveren, de pijn zit bij de ongestructureerde data. Uit die berg gegevens zal de essentie moeten worden gehaald, zeker met behulp van geautomatiseerde technieken. Met de hand doorzoeken is volgens McKinsey en ook andere onderzoekers niet meer te doen, alleen al door de gigantische hoeveelheden waar het om gaat.

Ongestructureerde gegevens komen uit verschillende bronnen, denk aan blogs, sociale netwerken of het resultaat van een zoektocht op internet. Die gegevens kunnen met elkaar samenhangen en dat zal tijdens de analyse moeten blijken.

Waarde

Door slim gebruik van Big Data kunnen bedrijven en instellingen financieel voordeel behalen. In het rapport van McKinsey zijn op dat gebied wat berekeningen uitgevoerd, met verrassende uitkomsten. Zo kan de gezondheidszorg in de Verenigde Staten, de US Health Care, per jaar een voordeel realiseren van 600 miljard dollar. Dat is volgens de onderzoekers tweemaal zoveel als het bedrag dat jaarlijks in Spanje wordt besteed aan gezondheidszorg.

De publieke sector in Europa kan jaarlijks een voordeel behalen van 250 miljard euro, en dat is meer dan het bruto binnenlands product van Griekenland, aldus de onderzoekers.

SensOren houden de koe in de gaten

Een voorbeeld van sensortechniek van eigen bodem is de SensOor, een product van Agis Automatisering uit Harmelen. Het systeem werkt met een chip in het oor van de koe, die in staat is allerlei vitale gegevens te meten. De data wordt doorgezonden naar een centraal punt, de CowManager, zodat de boer zijn veestapel in de gaten kan houden. De CowManager draait op pc, smart phone of tablet.

Bijvoorbeeld door het bijhouden van de temperatuur nadat het beest gekalfd heeft. Met de hand de temperatuur opnemen is een tijdrovende klus, de chip kan het veel sneller. Als we niet oppassen gaat het te snel, zodat veel te veel meetgegevens worden opgewekt die allemaal geanalyseerd moeten worden. Experts hebben berekend dat een enkele koe tijdens haar leven goed is voor 200 megabyte aan data. Een boer met 10.000 koeien creëert dus zijn eigen datastuwmeer van aanzienlijke omvang. Een technische vooruitgang zorgt voor een datatoename van minimaal een factor 1000.

VIR

De firma VIR e-Care Solutions uit Arnhem heeft zelf een applicatie ontwikkeld voor het bijhouden van patiëntgegevens, aanvankelijk voor de revalidatiezorg, later ook voor andere sectoren. De gegevens die per patiënt worden opgeslagen zijn zowel gestructureerd als ongestructureerd. Zo kan een behandelaar op een schematische tekening van een lichaamsdeel aankruisen waar bijvoorbeeld een breuk zit. Maar het dossier van een patiënt kan ook informatie in vrije tekst bevatten, opgeschreven door artsen, verpleegkundigen of verzorgenden.

“Per patiënt kan het gaan om grote aantallen formulieren met gegevens, zeg tussen de 1000 en 1500 stuks. Als een nieuwe arts zo’n dossier zou moeten doorwerken dan kost dat veel tijd. We zochten dus naar een manier om de grote hoeveelheden data terug te brengen naar een kleiner en handzaam formaat”, zegt Stéphany van Dijk, woordvoerster van VIR.

De eigen applicatie van VIR, Ecaris geheten, is ontwikkeld in een Oracle-omgeving. Daar waren niet echt tools beschikbaar om de datamassa te verkleinen. “Die vonden we wel op een ander platform, namelijk de Caché-database van Intersystems. Dat bedrijf kocht begin dit jaar het bedrijfje I-Know op, dat zich in intelligente datareductie heeft gespecialiseerd. Met behulp van I-Know kunnen we de vele teksten terugbrengen tot hun essentie”, zegt Michel Koolwaaij van de afdeling ontwikkeling van VIR.

Daarvoor is het wel nodig om de patiëntgegevens over te zetten van Oracle naar Caché, wat gebeurt door een tweetraps-aanpak. Binnen de Oracle database draait een script dat de gegevens klaar zet voor export en aan de Caché-kant draait een script om de gegevens naar binnen te halen. Pas daarna kan de software van I-Know met de data aan de gang.

Koolwaaij: “Er wordt een tekst­analyse gemaakt waarbij veel­voorkomende woorden worden aangemerkt, rekening houdend met de context waarin ze staan. Uiteraard worden algemene termen zoals ja, nee en lidwoorden uitgefilterd, om een werkbaar resultaat te krijgen. Na de analyse door I-Know ontstaat een beknopte samenvatting, die een behandelaar snel kan doorlezen om een goed beeld te krijgen van de patiënt.”

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Neem contact met ons op!