Innovatie & Strategie

Analytics

Big Data binnen bereik van het MKB

29 november 2013

Data science wordt een nieuwe wetenschappelijke discipline, naast informatica. Dat zegt Europa’s meest geciteerde informaticus professor Wil van der Aalst. Van der Aalst is als wetenschappelijk directeur het boegbeeld van het vorige week officieel gelanceerde Data Science Center Eindhoven. Daarmee wil de Technische Universiteit zich positioneren binnen het internationale ecosysteem rond Big Data, met bestaande expertisecentra als Technion (Israël), University of Porto (Portugal) en Aalto University (Finland). AutomatiseringGids vroeg Van der Aalst naar de businesscase achter DSC/e.

Wat kan het DSC/e toevoegen aan het R&D-geweld van bedrijven als IBM, SAP en Oracle?
“Heel veel, denk ik. De bedrijven die u daar noemt, doen helemaal niet zo veel aan onderzoek. SAP heeft zijn researchcentra zelfs opgeheven en bij de rest van heb bedrijfsleven is R&D doorgaans vooral D en met een heel sterke focus op uitdagingen die een snelle ‘return on investment’ opleveren. Google is misschien een ander verhaal, dat investeert wel heel veel in kennisontwikkeling, maar het is daarin wel steeds met heel specifieke problemen bezig.

Het DSC/e moet veel breder worden. Met het DSC/e richten wij ons natuurlijk niet alleen op de grote softwarebedrijven, die toch wel een businesscase hebben om er een eigen R&D op na te houden. Onze doelgroep is veel groter: er zijn honderden, zo niet duizenden, Nederlandse bedrijven die wel iets met Big Data zouden willen, maar niet de schaal hebben om de daarvoor noodzakelijke R&D te verrichten.

DSC/e heeft initieel twee wetenschappelijk medewerkers die zich volledig richten op het identificeren en engageren van bedrijven die met grensverleggende vragen zitten op het gebied van Big Data. Doordat wij van al die bedrijven de vragen naast elkaar kunnen leggen en op zoek gaan naar overlappingen en raakvlakken, creëren we schaalvoordeel waarmee ze de businesscase om er één of meer promovendi op te zetten wél rond krijgen. Op deze wijze worden geavanceerde datascience-technieken ook bereikbaar voor het MKB. ”

Wie gaat het onderzoek bij DSC/e bekostigen?
“Dit soort onderzoek wordt typisch gezamenlijk gefinancierd door universiteit en bedrijfsleven; meestal op 50/50-basis. Een recent voorbeeld is dat Philips twaalf datascience-onderzoekers voor vier jaar mee wil financieren. Het gaat hierbij om datasciencevraagstukken zoals: Waarom gaat een röntgenapparaat stuk en kunnen we dit voorspellen? En, hoe kunnen we de klant verleiden tot aankoop over te gaan?

In het lopende Impulse-programma ‘Extracting Value from Dynamic Data’ werken we samen met Adversitement, Perceptive Software, SynerScope op het gebied van nieuwe visualisatie- en miningtechnieken. Hierdoor waren we in staat zes nieuwe onderzoekers aan te stellen.”

Wat voor bedragen zijn daar mee gemoeid?
“Het DSC/e zit nog in de opstartfase maar er lopen al veel datascience-activiteiten binnen de verschillende onderzoeksgroepen. Dit gaat al om enkele miljoenen euro’s. De ambitie is echter vele malen groter.”

Waarom kunnen dergelijke onderzoeksopdrachten niet door de bestaande faculteiten worden opgepikt?
“In feite doen de faculteiten Wiskunde en Informatica, Elektrotechniek, Industrial Engineering & Innovation Sciences en Industrieel Design al jaren onderzoek op het gebied van data science; waar nodig wordt ook stevig samengewerkt. Onderzoek onder regie van het DSC/e wordt ook gewoon uitgevoerd door hoogleraren – zo’n twintig in totaal – en promovendi die bij die faculteiten op de loonlijst staan.

Een van de doelen die ons met het DSC/e voor ogen staan, is het vergroten van de zichtbaarheid van data science als nieuw en op zichzelf staand onderzoeks- en kennisdomein, en dat werkt natuurlijk het beste als je ook vanuit een gezamenlijk instituut naar buiten treedt. Daarnaast zien we een eigen instituut ook als een aanzet tot het institutioneel verankeren van data science als een nieuwe zelfstandige discipline. Vergelijk het met de wijze waarop informatica zich ooit losmaakte uit de ­wiskunde.

In die zin zie ik het DSC/e ook niet als een multidisciplinair gebeuren; het feit dat je kennis en onderzoekers uit meerdere disciplines betrekt doet niets af aan de eigenheid van het onderzoeksdomein, dat echt eigen vragen centraal stelt.”

Wat voor vragen die niet door andere disciplines worden gesteld, adresseert data science?
“Data science adresseert drie hoofdthema’s. De eerste is Dataverzameling. Daar horen vragen bij als: Wat zijn de best practices wat betreft infrastructuur? En, hoe beslis je wat wel en niet zinvol is om te registreren? De tweede is Data analytics. Hoe komt je van data naar inzicht? Wat zijn de mogelijkheden en beperkingen van technieken op het gebied van datamining, procesmining en datavisualisatie? Hoofdthema nummer drie is Toepassing van de kennis. Hoe kun je het inzicht dat je door analyse van grote hoeveelheden data verkrijgt, gebruiken om de werkelijkheid op een zinvolle manier te beïnvloeden? Het zal duidelijk zijn dat deze drie thema’s zich onderling circulair verhouden; nadat je de werkelijkheid beïnvloed hebt, ontstaat een nieuwe situatie waarop je dan opnieuw een data-analyse kunt toepassen, enzovoort.”

Waarom zijn dergelijke vragen niet vanuit de bestaande ­wetenschappelijke disciplines te beantwoorden?
“Ik denk dat deelvragen heel goed vanuit de bestaande disciplines te beantwoorden zijn. Het DSC/e is echter opgericht om te bevorderen dat ze dat op een samenhangende wijze gaan doen. In de toekomst zullen niet alleen informatiesystemen, maar ook apparaten in huis, kantoor en fabriek zich automatisch aanpassen aan de gebruiker en omstandigheden. 90 procent van alle huidige data is in de afgelopen twee jaar geproduceerd. Data is de olie van de 21e eeuw. Organisaties die deze olie niet hebben of niet goed weten te gebruiken, zullen niet overleven. De ingenieur van de toekomst zal daarom meer dan ooit om moeten kunnen gaan met grote hoeveelheden data.

Om die reden willen we het met het DSC/e ook niet laten bij onderzoek en promoties. Over twee tot drie jaar moeten er ook volwaardige bachelor- en masteropleidingen worden aangeboden, zodat we bedrijven en onderzoeksinstellingen kunnen voeden met werknemers die gewend zijn om in Big Data te denken. De algemene verwachting is dat er een nieuw beroep ontstaat – data scientist – door sommigen al ‘the most sexy job of the century’ genoemd.”

Wat is de eigenheid van data science, als wetenschappelijk ­werkterrein?
“Dat heeft te maken met een aantal verschuivingen. De opvallendste daarvan is wel de verschuiving van modelgedreven onderzoek naar meer empirisch onderzoek, waar modellen voortdurend worden geconfronteerd met harde data. Vroeger was er eerst het model, ‘het idee van wat er aan de hand is’, en dan moesten de data dat bevestigen of weerleggen. Denk bijvoorbeeld aan een steeds weer optredend defect in een ingewikkeld medisch apparaat, waarbij dan een ervaren engineer op basis van z’n professionele Fingerspitzengefühl een hypothese oppert, waarna aan de hand van de data wordt gekeken of hij het bij het rechte eind heeft. Met Big Data is de volgorde andersom; die data vertellen je wat er aan de hand is en de deskundige denkt na om te kijken hoe dat te rijmen valt met wat hij al wist.

Hiermee samenhangend is er ook een verschuiving in wat je onderzoeksdoelstelling wordt. In de jaren tachtig was het genoeg als onderzoek een mooi model opleverde. In de jaren negentig hoorde een proof of concept in de vorm van een werkend computerprogramma er eigenlijk ook wel bij. Maar onder invloed van Big Data zien we dat dit niet meer voldoende is. Software en nieuwe ideeën moeten in hun natuurlijke omgeving geëvalueerd worden.

Verder zien we onder invloed van Big Data de rol van technieken veranderen. Waar vroeger met steekproeven werd gewerkt, met alle complicaties van dien, worden nu domweg alle gevallen geanalyseerd. Waar simulatie vroeger een op zichzelf staand hulpmiddel was voor het evalueren van scenario’s, is er nu een veel directere koppeling mogelijk met de echte data.

Met deze insteek worden heel andere onderzoeken mogelijk. Een voorbeeld: begin vorige eeuw werd de Yerkes-Dodson Law geformuleerd: mensen gaan harder werken als je meer werk in hun richting schuift, tot een bepaald instortingspunt natuurlijk. Die wet is eigenlijk altijd een hypothese gebleven. Toetsing bleef beperkt tot laboratoriumsituaties en in de praktijk kwam het door gebrek aan data en mogelijkheden tot analyse nooit verder dan de intuïtie van managers die er wel of niet in geloofden. Met behulp van Big Data en procesmining hebben we nu niet alleen kunnen aantonen dat de wet klopt, maar kunnen we ’m ook echt toepassen om de productiviteit van werknemers te vergroten en tegelijkertijd het afbreukrisico te minimaliseren.”

Kun u me enkele beknopte voorbeelden schetsen van ­aansprekende vraagstukken die nu bij DSC/e in onderzoek zijn?
“Onze gezondheidszorg wordt onbetaalbaar vanwege de vergrijzing en beschikbaarheid van nieuwe technieken. Alleen door processen efficiënter te organiseren en ervoor te zorgen dat er geen onnodige of ineffectieve behandelingen plaatsvinden, kunnen we de zorg betaalbaar houden. Datascience-technieken kunnen prima gebruikt worden om de zorg betaalbaar te houden, zonder grote kwaliteitsverliezen.

Een ander voorbeeld is het preventief onderhoud van high-techsystemen. Sensordata kunnen gebruikt worden om te voorspellen wanneer onderdelen in bijvoorbeeld een röntgenapparaat of bagageafhandelingssysteem stuk zullen gaan. Hiervoor ontwikkelen we predictive analytics technieken. Weer een ander voorbeeld is de analyse van sociale media zoals Twitter met als doel gerichte interventies te plegen op het moment dat er negatieve sentimenten rondom een merk ontstaan.”

Wat ik mis is ethiek in de disciplines die in het DCS/e ­vertegenwoordigd zijn. Moet je als datascientist niet ook een antwoord kunnen geven op vragen als wat moet je en wat moet je niet willen?
“De afluisterpraktijken van de NSA laten zien dat het toegenomen vermogen om data te verzamelen en analyseren ook misbruikt kan worden. Minder zichtbaar is hoe bedrijven nu al slim gebruik maken van data om betere producten te bouwen, betere diensten te leveren, en kosten te besparen. Het is daarom geen oplossing alles te verbieden en geen data meer te verzamelen: de data is er en is nodig voor de operationele processen.

Wel is het belangrijk steeds na te denken over de vraag waarvoor de data gebruikt mag worden. Ethiek dient daarom een integraal onderdeel te zijn van de opleiding tot data scientist. Vandaar dat de ethiekgroep onder leiding van prof. Anthonie Meijers betrokken is bij DSC/e.”

Is het op grond van uw kennis mogelijk om aan te geven wat op dit moment voor bedrijven de meest voorkomende succes- en faalfactoren zijn bij het implementeren van Big Data?
“Het is enorm belangrijk dat organisaties de waarde van data gaan onderkennen en hier ook in willen investeren. Het doel is niet steeds meer Big Data te verzamelen, maar de juiste gegevens te registeren en zeker te stellen dat deze correct zijn. In veel organisaties worden logbestanden nog steeds gezien als een bijproduct van IT.”

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Neem contact met ons op!