Innovatie & Strategie

Analytics

Kwaliteit is niet 
vanzelfsprekend

9 juli 2015

Data-analyse is steeds meer bepalend voor de beslissingen van mensen en bepaalt daarmee ook ons gedrag. De technologie – of ­eigenlijk de persoon die de technologie ontwikkelt – is daarmee waarschijnlijker vaak beter in het afdwingen of stimuleren van menselijk gedrag dan wet- of regelgeving. Dat stelt hoge eisen aan (de werkwijze van) bijvoorbeeld programmeurs en datascientists.

Tegelijkertijd worden zij gedwongen om met de hoogste snelheid nieuwe toepassingen te ontwikkelen, want de omgeving verandert snel. Dat roept de vraag op of we op een andere manier de kwaliteit van hun werk ­moeten borgen.

Aan afschrikwekkende beelden over de toekomst van onze informatiesamenleving geen gebrek. Dave Eggers schreef er een bestseller over – The Circle – en de Russische Evgeni ­Morozov – een invloedrijk denker over de informatiesamenleving – benadrukt in tal van interviews hoe de oprukkende dataficatie een bedreiging vormt voor de democratie. We gaan immers bij onze beslissingen steeds meer af op de uitkomsten van data-analyse: het systeem vertelt ons wat we moeten doen. Navigatiesystemen zijn een mooi voorbeeld: de algoritmen daarin vertellen ons wat de snelste route is van A naar B, rekening houdend met actuele congestie op de wegen. We hoeven er zelf eigenlijk nauwelijks nog over na te denken.

Er is weinig voorstellingsvermogen nodig om te bedenken dat dit in de nabije toekomst steeds verder zal doordringen. De opkomst van de autonoom rijdende auto – waar geen menselijke denkkracht meer aan te pas komt – lijkt een kwestie van tijd. En ook in heel andere ­domeinen ‘grijpen algoritmen de macht’. Het onderbuikgevoel van een manager speelt bij ­beslissingen over investeringen of kredieten een steeds kleinere rol nu deze beslissingen vooral op basis van data-analyse worden genomen. Een praktijk die bij crowdfundingplatform Kickstarter al wordt toegepast (zie kader). Medische professionals worden straks ondersteund door systemen die op basis van verschillende databronnen over een patiënt een diagnose stellen. En zo zijn in alle sectoren wel voorbeelden aan te wijzen.

Experimenteren

Er rust een grote verantwoordelijkheid bij ­degenen die de systemen, programma’s en ­data-analyses bouwen die sturing geven aan onze beslissingen in de zich steeds verder ontwikkelende informatiesamenleving. Tegelijkertijd is er in rap tempo een nieuwe realiteit ontstaan voor hun werk. Vroeger dachten we in grote systemen die in enkele jaren tijd werden ontwikkeld op basis van goed voorbereide blauwdrukken. Zo’n werkwijze is in veel gevallen niet meer haalbaar: we moeten ook durven experimenteren, snel resultaten boeken en voortdurend reageren op nieuwe ontwikkelingen. Alleen met zo’n flexibele aanpak kan de digitalisering van de wereld succesvol worden omarmd. Daarbij hebben gebruikers en klanten ook nog eens extreme verwachtingen ten aanzien van gebruiksgemak, uptime en ­betrouwbaarheid.

Die cocktail van ontwikkelingen is niet eenvoudig en er is al veel geschreven over hoe ­organisaties daarop moeten inspelen. Zij moeten in elk geval ruimte inbouwen voor experimenten. Dat geëxperimenteer wordt vaak wat op afstand gezet en daarbij is het dan essentieel dat er een goede verbinding met de bestaande organisatie wordt gelegd. Ook is het zaak om in sterke multidisciplinaire teams te werken om in te spelen op de nieuwe wereld en in elk geval de vragende partij (‘de business’) nauw te betrekken bij de projecten.

Dat is op zichzelf al een hele uitdaging, maar bovendien moeten we de kwaliteit van ontwikkelde systemen en data-analyses steeds ­beter borgen. Omdat het (a) steeds belangrijker wordt dat de uitkomsten van het systeem betrouwbaar zijn omdat deze steeds meer ons gedrag bepalen, en omdat (b) de snelheid van ontwikkeling kwaliteitsrisico’s met zich ­meebrengt. De vraag is hoe we dat gaan doen. Zonder de pretentie van een alomvattende aanpak stippen we hiertoe drie zaken aan.

1. Randvoorwaarden

Ten eerste kunnen we het invullen van de randvoorwaarden niet overlaten aan de ­ontwikkelaar. Die is er helemaal niet voor ­opgeleid om systemen zodanig te ontwerpen dat zij voldoen aan de (maatschappelijke) ­eisen. Deze randvoorwaarden zouden daarom op een andere manier moeten worden geborgd. Een van de mogelijke manieren, die ­bijvoorbeeld in de verzekeringsbranche wordt onderzocht, is om een manifest te formuleren waarin deze eisen worden verwoord. Zo’n manifest dient te worden afgestemd met de verschillende stakeholders vanuit de branche, het vakgebied en de maatschappij en dient vervolgens als een ‘kompas’ bij de ontwikkeling van intelligente systemen en toepassingen. De analogie met allerlei codes – zoals die voor Corporate Governance – dringt zich hierbij op. Organisaties die volgens zo’n manifest werken kunnen laten zien dat ze de maatschappelijke randvoorwaarden en ethische principes ­serieus nemen door de naleving ervan, door hun activiteiten door een derde partij te laten toetsen.

2. Privacy en transparantie

Het tweede punt is specifieker en betreft de borging van principes als transparantie en ­privacy. Er zijn verschillende technische mogelijkheden om ervoor te zorgen dat we op een verantwoorde manier omgaan met persoonlijke data, ook als dat gevoelig ligt. Het is bijvoorbeeld mogelijk dat twee eigenaren van data hun inzichten leveren aan een Trusted Third Party (TTP), die in dat geval eigenlijk de functie van notaris vervult. De deelnemende partijen krijgen geen inzicht in elkaars gegevens, maar er kunnen toch diensten worden geleverd op basis van gecombineerde inzichten. Een analyse zou zelfs kunnen worden gesplitst in subanalyses, zodat het grootste deel van de analyse plaatsvindt bij de eigenaren van de data zelf. Vaak zijn maar voor een heel klein deel van de analyse afgeleide inzichten nodig van beide partijen en dat deel kan dan, indien nodig, plaatsvinden bij een derde partij. Het grote voordeel van deze werkwijze is dat de eigenaar van de data compleet in control is. Vooral voor medische gegevens, telefoongegevens of financiële gegevens is dat zeer relevant in een tijd waarin juist veel kritiek op dit punt bestaat. Dergelijke technieken, in combinatie met het pseudonimiseren, anonimiseren en aggregeren van gegevens, bieden een waarborg op het vlak van privacy en transparantie.

3. Kwaliteitsborging

Het derde onderwerp is algemene kwaliteitsborging en de vernieuwingen die daarbij ­spelen nu er steeds meer een ecosysteem ­ontstaat. In de wereld van datascience zijn interessante trends gaande op dit vlak. Het is een relatief jong werkveld en daarmee is de professionaliteit van de werkwijze van een ­datascientist ook geen vanzelfsprekendheid. Er zijn de afgelopen jaren grote stappen gezet om dat te verbeteren. De komst van open standaarden, zoals het Open Data Platform, zorgt ervoor dat de herbruikbaarheid van analyses groter wordt, waardoor de kwaliteit omhoog gaat. Bovendien worden platformen voor datascience steeds professioneler door integratie van oude bekenden uit de wereld van softwareontwikkeling, zoals tools voor het delen van kennis of het beheren van broncode. Dit alles stimuleert de datascientist tot een meer gestructureerde en efficiënte manier van werken, maar dat alleen is niet genoeg.

Reviewmodel

Nu data-analyse steeds verder doordringt in onze samenleving is het noodzakelijk dat ook de kwaliteit van de toepassingen zelf optimaal geborgd is. Het sluitstuk van de kwaliteitsborging is een reviewmodel voor datascience. Daarbij zouden niet alleen gebruikers ratings en recensies moeten kunnen geven om hun ervaringen te delen, zoals bijvoorbeeld in een appstore, ook de datascientists moeten elkaars werk kunnen reviewen. Misschien ontstaan er zelfs wel gespecialiseerde partijen die analyses gaan certificeren. Zo kan een mechanisme ontstaan dat prikkels geeft aan de kwaliteit van de onderliggende data-analyse met een vergelijkbare dynamiek als een appstore.

Het resultaat? Een toepassing voor voorspellend onderhoud bij auto’s kan wellicht worden hergebruikt in andere sectoren, omdat algoritmes gelijksoortig zijn. En een toepassing die bij de ene energiemaatschappij goed werkt voor het monitoren en controleren van de facturering van het verbruik, zal wellicht ook bruikbaar zijn bij een andere energiemaatschappij, waardoor de kosten van ontwikkeling kunnen worden gedeeld. Als zowel gebruikers als specialisten elkaars werk op deze manier inhoudelijk gaan reviewen, komen de beste toepassingen vanzelf boven drijven.

Dit alles klinkt misschien als een ver-van-mijn-bed-scenario. Maar dat is niet het geval. Sterker nog: onderdelen ervan bestaan op dit moment al. Een voorbeeld is de website algorithmia.com. Door MIT ‘A Dating Site for Algorithms’ genoemd. Het geeft de gemeenschap de mogelijkheid om algoritmes te bouwen, te delen en uit te breiden, zodat een zichzelf corrigerend en verbeterend ecosysteem ontstaat.

Geen mensen meer nodig

Een intrigerend voorbeeld van hoe data-analyse taken overneemt van de mens is crowdfundingplatform Kickstarter. Dit platform laat niet langer alle ingediende projecten beoordelen door een mens. Wie een project indient kan deze stap ook overslaan en krijgt dan te maken met algoritmen die op basis van duizenden datapunten besluiten of het project klaar is om te lanceren op de site. Uit een eigen blog blijkt dat bijna een derde van de aanvragen op de site kan worden geplaatst zonder dat er een menselijke beoordeling van het project heeft plaatsgevonden. Kickstarter ziet zelf drie voordelen: er is een ‘fast track’ voor relatief simpele projecten; er is meer tijd over voor projecten waar de indieners om hulp vragen; en er is meer tijd over om tot goed onderbouwde beslissingen te komen in geval van twijfel. Essentieel is in dit geval natuurlijk dat het algoritme betrouwbaar en goed is.

 
Lees het hele artikel
Je kunt dit artikel lezen nadat je bent ingelogd. Ben je nieuw bij AG Connect, registreer je dan gratis!

Registreren

  • Direct toegang tot AGConnect.nl
  • Dagelijks een AGConnect nieuwsbrief
  • 30 dagen onbeperkte toegang tot AGConnect.nl

Ben je abonnee, maar heb je nog geen account? Laat de klantenservice je terugbellen!