Innovatie & Strategie

Analytics

De innovatieve kracht van Big Data

18 november 2013

In de afgelopen vijfentwintig jaar is de computer van rekenmachine een zoekmachine geworden. Deze ontwikkeling is nog niet ten einde en op dit moment zitten we in de fase van Big Data. AI-technieken (Artificial Intelligence), datamining-technieken en statistiek weten keer op keer verrassende verbanden te leggen tussen feiten, gebeurtenissen en context. Ze geven oplossingen voor problemen en bewerkstelligen een verandering in denken. Big Data beheerst het nieuws en zorgt voor nieuwe ontwikkelingen. Small Data beheert het openbaar bestuur en bedient de mondige burger.

De ontwikkeling van Big Data verloopt via veel verschillende invalshoeken. We noemen er hier drie. Een korte lijn is als volgt. In 1997 werd Kasparov (de menselijke schaakwereldkampioen) verslagen door Deep Blue. Het was de triomf van een AI-machine, sommigen zeiden: het was brute rekenkracht. Eigenlijk was dit laatste een belediging voor de prestatie van IBM, die het evenwel opvatte als een prikkeling. In 2011 kwamen zij met het programma Watson, dat ondubbelzinnig de baas was over Ken Jennings en Brad Rutter in het beantwoorden van vragen zoals die gesteld worden in het quizprogramma Jeopardy. De essentie was: betekenis geven aan woorden, zoeken tussen heel veel feiten en beweringen, het tunen van realistische mogelijkheden, en het geven van het juiste antwoord. De toepassingen waren veelvuldig (politie, veiligheidsdiensten en de medische wereld).

Invalshoeken

Na 9/11 (een andere invalshoek) hadden politie en veiligheidsdiensten zich al gericht op data, veel data, Big Data en het zoeken van verbanden. Toch bleek dat nog niet mee te vallen, want toen het er om ging om bij de aanslag in Boston in april 2013 de daders te identificeren, duurde het lang, te lang; veel informatie, veel kennis en Big Data waren in eerste instantie niet voldoende om tot de identificatie en aanhouding van een verdachte te komen. Er moest een nieuwe techniek in de Big Data-wereld aan te pas komen om succesvol te zijn: Narrative Science. Populair gezegd: laat de data zelf vertellen tot welke conclusies zij komen.

De kracht van Big Data komt eerst recht tot uitdrukking als je de data goed arrangeert (de derde invalshoek). Maar hoe doe je dat? In feite doorlopen computer en mens hetzelfde pad, zij het met verschillende snelheid. Aanvankelijk wordt begonnen met verzamelen (rubriceren en categoriseren) van data. Dit leidt tot typed data. Als het te veel wordt om overzichtelijk te zijn doen we een beroep op visualisatie. Visualisatie toont veel, maar vertelt weinig, vooral niet van de achtergronden. Daarom moest er een techniek ontwikkeld worden die ervoor zorgt dat de data deze taak op zich nemen. Wetenschappelijk gezien gaat het om het formuleren van hypotheses die dan door de computer gefalsifieerd kunnen worden.

In Los Angeles heeft de politie Narrative Science en Big Data ingezet bij het handhaven van de openbare orde en veiligheid. Arme wijken, warme dagen, hoge temperaturen, temperamentvolle bevolking, het zijn de ingrediënten die na twee dagen gegarandeerd voor relletjes zorgen, meestal bij supermarkten. Zorg dan dat je daar bent en zorg er ook voor dat brandslangen voor verkoeling kunnen zorgen. Als er zich dan toch een incident voordoet dan is de kans groot dat het volgende incident zich in een aangrenzende buurt voordoet. Het analyseren van Big Data brengt ons tot deze en andere vuistregels.

Definities

Er zijn veel definities van Big Data. De meeste zijn gericht op de verandering van de samenleving. Dat wordt Social Innovation genoemd. Wij gebruiken hier de technologische definitie van Tom White (2012). Hij spreekt van Big Data ‘wanneer een verzameling bestanden zo groot en complex is dat verwerking met reguliere databasesystemen of statistische-analysehulpmiddelen niet meer mogelijk is’. De uitdagingen omvatten (1) opslag, (2) beheer, (3) doorzoeken, (4) uitwisseling, (5) analyse, (6) visualisatie en (7) interpretatie. Rob van Eijk, promovendus in Leiden op het gebied van tracing en tracking van cookies, voegde daar onlangs het aspect realtime aan toe.

Een eenvoudig en bekend voorbeeld is dat Google een griepepidemie kan voorspellen door anoniem het aantal vragen bij te houden die op de betreffende griepsite worden gesteld (bijvoorbeeld 2000 vanuit omgeving Madrid). In eerste instantie betekent dit dat actie geboden is om een antigriepvirus te verspreiden. Het gaat hier om de correlatie van veel vragen, met allemaal dezelfde klachten, en allemaal rondom één plaats. Wetenschappelijk gezien is hier sprake van een computational turn. Dit betekent dat we in het handelen een verschuiving zien plaatsvinden van causaliteit naar correlatie. Het is overduidelijk dat vanuit Big Data het redeneren via correlaties oprukt; dat gebeurt zowel in de praktijk als in de wetenschap. Correlatie werkt en dat is wat telt. Het gaat niet langer om data uit steekproeven, maar om data afkomstig vanuit grote populaties (Twitter feeds, klikgedrag op internet, Facebook-data). Causaliteit heeft op veel plaatsen aan belang ingeboet, maar is niet verdwenen. Het is immers nuttig om te weten dat van de 2000 Googlers rondom Madrid er 750 met het vliegtuig uit Delhi kwamen (en dat de oorzaak van de griep mogelijk daar vandaan komt).

Wetenschappelijk hebben we in de laatste vijftig jaar twee overgangen gezien. De eerste overgang was van doelgericht onderzoek (op weg naar resultaten en producten) naar causaal gericht onderzoek (op zoek naar verbanden). De tweede overgang vindt nu plaats: van causaliteit naar correlatiegericht onderzoek (wat is er aan de hand?). De computational turn vraagt om reflectie vanuit de economie, het recht, de sociale- en gedragswetenschappen, alsook vanuit filosofisch perspectief.

In het Big Data-landschap kunnen we grofweg drie lagen onderscheiden, te weten: technologie, infrastructuur en toepassingen. De technologie is volop in ontwikkeling en er is bepaald nog geen sprake van standaardisatie. Een heel bekende ontwikkeling op dit gebied is Hadoop. Het Hadoop-raamwerk is geschreven in Java. Evenals bij Linux is er een grote gemeenschap die zich met het verder ontwikkelen van Hadoop bezighoudt. De infrastructuur kent diverse onderverdelingen, zoals Structured Databases, Operationele Infrastructuur, Analyse Infrastructuur en Infrastructure as a Service. Dit loopt vooruit op de grote diversiteit die er bestaat bij de toepassingen. We zien daar Analytics en Visualisatie, Business Intelligence en het grote pallet van Apps. Een zeer aansprekende toepassing is Real-time bidding (RTB). Big Data en commercie hebben dus op internet een mooie liaison.

Innovatief

De innovatieve kracht van Big Data ligt in vier elementen: snelheid, precisie (personalisering), filtering (wat wel en wat niet), en correlatie. Vanzelfsprekend gaat het om de resultaten, die moeten in zekere zin ook innovatief zijn. Dat geldt voor de wetenschap, de industrie en het sociale leven. In de biomedische wereld wordt elke veertig seconden een wetenschappelijk artikel gepubliceerd. Dit betekent bijna 800.000 artikelen per jaar. Tot 2013 waren er in de biomedische wereld naar schatting 22 miljoen artikelen gepubliceerd. B. Mons (inaugurele rede Leiden, 2013) stelt voor om een Social Machine te ontwikkelen die de ‘dagelijks nieuw binnenkomende, massieve data- en informatiestromen onmiddellijk analyseert in de context van alle data die we al hadden’. ‘Dit betekent dat de manier waarop wij op dit moment wetenschap bedrijven fundamenteel zal veranderen.’ Dat geldt ook voor de manier van publiceren. Vroeger was een publicatie een verhaal, we zien nu een omslag naar een verhaal met data. Sinds Stapel en andere fraudeurs worden data steeds belangrijker (zij vertellen immers het verhaal) en daarom zal er in de wetenschap een omslag plaatsvinden van uitleg naar data. De data zelf zullen het verhaal vertellen en niemand anders.

Big Data en ethiek

Big en Small Data hebben grote invloed op de privacy. Kijken we naar Big Data en opsporing dan zijn de volgende concepten belangrijk: identiteit, privacy, eigenaarschap en reputatie. Alle vier kennen ze hun extremen. Enerzijds zal een analyse van Big Data dienen te gebeuren met geanonimiseerde gegevens (er mogen geen identiteiten vastgesteld kunnen worden). Anderzijds is het juist de bedoeling dat Narrative Science toegepast op Big Data de dader(s) onthult.

We kunnen Big Data dus gebruiken en misbruiken. De data zelf zijn ethisch neutraal, maar de organisatie die ze gebruikt kent wel een raamwerk van normen en waarden. Dat is voor bedrijven, universiteiten, landen en NGO’s geheel verschillend. Ieder van hen heeft in feite te maken met een eigen raamwerk van ‘Big Data Technology Ethiek’. Daarin spelen drie elementen een belangrijke rol: (1) rechten en belangen, (2) persoonlijke data en (3) het nemen van verantwoordelijkheid door organisaties. In elke organisatie moet de leiding op een gegeven moment de koers uitzetten en beslissingen nemen. Dat kan op vier verschillende momenten, te weten (1) bij het begin van het verzamelen van de data, (2) na verzameling bij de analyse, (3) na de analyse bij de articulatie en (4) bij het gaan uitvoeren van acties. In alle gevallen valt er heel veel af te wegen.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Neem contact met ons op!