Innovatie & Strategie

Datamanagement
Het kostenplaatje van AI

Het kostenplaatje van AI

Waarom de eerste use case wel positief is maar de tiende vaak niet meer.

8 mei 2020

De komende jaren bepaalt het vermogen van organisaties om slim en efficiënt gebruik te maken van AI fundamenteel hun lot. Efficiëntie is daarbij een sleutelwoord. Want het inzetten van AI heeft een prijs.

Als bedrijven succesvol zijn met hun eerste AI use cases is er vaak de neiging om hetzelfde proces te herhalen en steeds meer use cases toe te voegen. Hierbij heeft het tiende project meestal nog steeds een positieve impact op de balans, maar is de marginale, economische waarde van de volgende use case lager dan de marginale kosten. 

Kosten van enterprise AI

Natuurlijk zijn er kosten zoals tools en technologie. Maar het zijn de volgende minder tastbare kosten die na verloop van tijd toenemen, waardoor het vermogen te schalen en te profiteren van AI afneemt. 

1. Opschonen van data en datapreparatie 

Dit zijn cruciale en tijdrovende onderdelen van een AI-project en gaan als ze niet goed worden uitgevoerd, ten koste van de kwaliteit van AI-modellen. Om kosten te verminderen gaat het niet om versnellen of om taken weg te halen bij de data scientist. Het is zaak een efficiencyslag te maken en systemen te gebruiken waarmee je de data kunt vinden, opschonen en prepareren, en kunt gebruiken voor verschillende use cases. 

2. Operationaliseren en naar productie brengen

In het proces van de operationalisatie van een model zijn meerdere workflows. Bovendien bestaan ​​data science-projecten niet alleen uit code, maar ook uit verschillende data. Daarom moeten ze, voor betrouwbaar transport van code en data van de ene omgeving naar de andere, samen worden verpakt. Consistent verpakken, vrijgeven en operationaliseren is complex en zonder een manier om dit eenduidig te doen, kan het tijdrovend en dus kostbaar zijn. 

3. Aannemen en behouden van data scientists

Data scientists willen het verschil maken en worden gedreven door efficiëntie. Als zij veel tijd kwijt zijn aan het opschonen van data en datapreparatie, in plaats van te werken met geavanceerde technologie, zullen ze niet erg blij zijn in hun werk. Je bent dan veel geld kwijt aan het werven en behouden van data scientists. Je kunt deze kosten terugdringen door hen de middelen te geven waarmee ze kunnen profiteren van voorgaande projecten en werk opnieuw kunnen gebruiken.

4. Onderhoud van modellen

Machine learning-modellen zijn niet net als softwarecode die een keer in productie kunnen worden genomen en werken totdat er fundamenteel iets aan het systeem veranderd. Data verandert voortdurend, waardoor modellen na verloop van tijd gaan afwijken. Daarom is continu onderhoud van AI-projecten noodzakelijk. Afhankelijk van de use case kan het model steeds minder effectief worden en in het ergste geval zelfs schadelijk zijn voor het bedrijf.

5. Complexe technologische stacks
Het is niet alleen de infrastructuur die moet worden onderhouden; ook  AI-technologieën veranderen snel. Het overschakelen van de ene naar de andere technologie komt regelmatig en kan kostbaar zijn. Ook gebruiken verschillende teams in grote organisaties soms andere technologieën. Zonder zaken samen te kunnen voegen - en hergebruik en uitwisseling van kennis tussen deze teams - wordt opschalen nog duurder.

Reactie toevoegen
2
Reacties
Tom van Zanten 14 mei 2020 09:41

Er zijn bij dit artikel wel wat opmerking te maken.

ad 1. De crux is hier goede test- en trainingsets te hebben. Deels voor pre-training en deels voor transfer learning wat de nodige tijd besparen kan. Dat is vooral het werk van data engineers, niet primair van de data scientists. Organisaties die al langer succesvol zijn hadden dit al een paar jaar geleden door.

ad 2. Werk vanuit een framework voor je modellen, automatiseer zowel je hertest als de deploy. Modellen met een feedback loop die het model aanpast moet je constant in de gaten houden of er geen skew optreedt.

ad 3. Laat de data scientists vooral de nootjes kraken, juiste technieken kiezen, modelleren en toezicht houden op de modellen in productie. Data wrangling etc. is vooral voor data engineers, dat zijn overigens ook 'halve data scientists' qua kennis en moeten ook nauw samenwerken in het team (incl. de software engineers).

ad 4. zie ook bij 2.

ad 5. Als je aan het 'overschakelen' bent dan snap je het niet echt... dit is een evolutionair proces in DevOps. Als het beter kan pas je het steeds aan. En als je het op verschillende plekken anders doet zonder expliciete reden dan heb je een organisatieprobleem, geen technisch probleem.

Bop 08 mei 2020 16:13

'data scientists', wetenschappers dus.
Dat zal wel niet bedoeld worden.
Daar zijn er niet zoveel van.

Maarja, dat krijg je met een overmaat aan modieus Engels.