Innovatie & Strategie

Analytics
Waaraan herken je een goede data scientist?

Waaraan herken je een goede data scientist?

Deze zes eigenschappen kun je toetsen in een sollicitatiegesprek

© CC0 - Unsplash Joshua Sortino
27 juli 2020

In 2008 noemden twee analisten van LinkedIn zich voor het eerst ‘data scientist’. Zij vonden dit een passende beschrijving voor het werk dat zij deden, namelijk waarde halen uit een enorme hoeveelheid data die werd verzameld via het platform.

Inmiddels heeft de functie zich sterk ontwikkeld en is het een erkend beroep met een geheel eigen jargon en waarvoor je over een indrukwekkende hoeveelheid vaardigheden moet beschikken. Maar hoe scheid je nu het kaf van het koren als je voor jouw organisatie op zoek bent naar een data scientist? Hiervoor kun je grofweg rekening houden met de volgende zes eigenschappen. 

  1. Een goede data scientist communiceert effectief

De harde realiteit is dat statistieken enorm complex zijn. Een data scientist weet dat hij de gemiddelde business user niet warm krijgt met een Excel bestand. Om toch het verhaal van de data  op een goede manier over te brengen, is het noodzakelijk dat hij over goede presentatievaardigheden beschikt. Dit kan variëren van alledaags (Powerpoint) tot heel exotisch (multimediale stories met interactieve Javascript-visualisaties op basis van het nieuwste D3-framework).

  1. Een goede data scientist kent de organisatie

Een data scientist is op de hoogte van de belangrijkste uitdagingen binnen de branche en weet dus ook waar de organisatie mee worstelt. Mijn ervaring is dat zonder goede business case veel datascienceprojecten eindigen bij de keukentafel. Een datascientist die kennis heeft van de organisatie weet wat de impact of waarde is van een datascienceproject en kan de afweging maken of er al dan niet in het project geïnvesteerd moet worden.

  1. Een goede data scientist begrijpt statistische fenomenen

Het lijkt een open deur maar data scientist moeten statistieken correct kunnen interpreteren: is het resultaat representatief of niet? Dit vereist inzicht en kennis,, zodat de data scientist met gegronde redenen kan stellen dat 3 procent in het ene geval significant is en in andere niet zoveel voorstelt. Dit is een essentiële vaardigheid, omdat het gros van de data die wordt geanalyseerd statistische vertekeningen (bias) bevat die moet worden geïnterpreteerd en gecorrigeerd. 

  1. Een goede data scientist heeft brede kennis van algoritmes  

Een data scientist moet een brede algemene kennis van algoritmes hebben om het juiste algoritme te kunnen selecteren en te weten welke wijzigingen nodig zijn aan het model. Hiervoor is een zekere mate van creativiteit nodig. Een schilder gebruikt kleur om diepte aan te brengen, een data scientist moet weten hoe data te combineren, zodat ze elkaar aanvullen. 

  1. Een goede data scientist biedt kant-en-klare oplossingen

Een moderne data scientist levert diensten op die direct live kunnen draaien. Met andere woorden, operationalisatie moet onderdeel zijn van het vocabulaire. Alleen een model opleveren is dan ook niet voldoende. Het moet worden geïntegreerd met bestaande tools en processen en ook worden onderhouden. Als dat niet goed gebeurt, dan blijft het onderhoud van de modellen bij het datascienceteam liggen en zijn ze vaak meer bezig met onderhoud en beheer dan met innovatie.

  1. Een goede data scientist werkt ook op grote schaal 

Data scientists moeten weten hoe ze om kunnen gaan met data-sets van meerdere terabytes in robuuste modellen die ook in productie nog functioneren. Angst voor een bestandsgrootte met meer dan 12 cijfers is uit den boze. In de praktijk betekent dit dat een data scientist een goed idee moet hebben van de rekentijd, wat er in memory gedaan kan worden en waarvoor Hadoop en MapReduce nodig zijn. 

Bovenstaande eigenschappen zijn goed te testen door bijvoorbeeld vragen te stellen als: ren je direct weg als we je vragen het algoritme in Java te schrijven? Of breekt het koude zweet je al uit als je we je verschillende customer datasets met een paar miljoen regels voorleggen? En zijn jouw presentaties beter dan die van onze topmarketeers? Het is misschien geen eenvoudige klus, maar beschikt de data scientist over bovenstaande basisvaardigheden dan is hij ongetwijfeld van toegevoegde waarde voor de organisatie.

Reactie toevoegen
2
Reacties
Borg 29 juli 2020 12:43

Wat hierboven is beschreven, lijkt me een schaap met vijf poten die in een organisatie ingebed wordt met andere schapen met vijf poten. Natuurlijk moet een datascientist het een en ander kunnen maar ik denk dat als je drie of vier van bovenstaande vaardigheden hebt je in je handen mag knijpen. Verder is de aansluiting op bestaande tools en processen via operationalisatie voor de meeste organisaties een wensdroom. Als data scientist kun je hopen op een werkbare omgeving maar zal die er meestal niet zijn of wordt dat pas later gerealiseerd. De aanname dat je het onderhoud van de modellen kunt afstoten, lijkt me trouwens niet realistisch vanwege de specialisatie en het gebrek aan kennis in de gemiddelde organisatie.

Hans Bezemer 27 juli 2020 13:23

Java?! Veel universiteiten hebben dit monster al uit het curriculum gehaald. Mag het ook een echte taal zijn?