Innovatie & Strategie

Analytics

Zonder 'small data' gaat Big Data de mist in

21 maart 2014
Analyses met Big Data zetten je makkelijk op het verkeerde been. Dat concluderen wetenschappers na het afserveren van één van de 'showcases' van Big Data: het grieponderzoek van Google.

Google Flu Trends wordt veel geciteerd, mede omdat Google ook wel wilde weten dat het zo'n nuttig gebruik kan maken van de honderden miljoenen zoekopdrachten die het dagelijks verwerkt. Uitgangspunt van Googles Flu Trends is dat er een correlatie bestaat tussen het aantal zoekopdrachten met griepgerelateerde termen  en het aantal personen dat griep heeft. Daardoor kan Google een actueler beeld geven van de verspreiding van griep, en ook inzicht geven in het aantal mensen dat griep heeft in landen waar geen goede registratie bestaat. Dat is althans de claim.

Aantal griepgevallen overschat

Een viertal wetenschappers heeft die claim aan een nadere analyse onderworpen. De titel van het artikel in Science waarin ze hun bevindingen beschrijven - The Parable of Google Flu: Traps in Big Data Analysis (alleen voor abonnees) - verklapt de conclusie al. Google Flu Trends zat er in de Verenigde Staten zowel in de griepseizoenen 2011-2012 als in 2012-2013 behoorlijk naast. In 100 van de 108 weken overschatte de analyse van Google het feitelijke aantal griepgevallen. Tijdens de piek van het griepseizoen 2012-2013 zat Google Flu Trends er bijna een factor 2 naast. In plaats van de 11 procent die Google telde, was 6 procent van de Amerikanen geveld door de griep. Het maken van projecties op basis van de gegevens van de CDC, waar een vertraging van drie weken in zit, zou veel betere schattingen hebben opgeleverd, stellen de onderzoekers.

Nadere analyse van het waarom van de overschatting brengt de wetenschappers tot de conclusie dat de zoektermen die Google Flu Trends gebruikt om griepgevallen te schatten, niet altijd een goede weerspiegeling zijn van het lijden aan griep. Anderzijds ziet de methode onverwachte ontwikkelingen - zoals het opduiken van het H1N1-A-virus - over het hoofd.

Zoekalgoritmes voortdurend veranderd

Wat ook niet helpt is dat Google zijn zoekalgoritmes voortdurend verandert, stellen de wetenschappers, deels met zijn advertentiebelangen in het achterhoofd. Dat heeft zijn weerslag op het zoekgedrag, waardoor niet vol te houden is dat het zoekvolume naar griepgerelateerde termen een goede basis is om het aantal ziektegevallen voor en na zo'n algoritmewijziging te vergelijken.

Het is, kortom, absoluut noodzakelijk dat je een goed inzicht hebt in de manier waarop gegevens die ten grondslag liggen aan Big Data-analyses verzameld zijn, en wat daar de haken en ogen bij zijn. Zeker wanneer je de gegevens niet zelf hebt verzameld, kan dat nog wel eens een ondoorzichtige materie zijn.

Het beste tegengif tegen de missers die daaruit kunnen ontstaan is, Big Data te combineren met traditionele vormen van informatieverzameling en -analyse met kleinere datasets, zeggen de wetenschappers.


Lees meer over
Lees meer over Innovatie & Strategie OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.