Development

Datamanagement
Python code

Fragmentatie Python data-ecosysteem aangepakt

Door slechte uitwisselbaarheid stijgen de kosten van data-analyses.

18 augustus 2020

Door slechte uitwisselbaarheid stijgen de kosten van data-analyses.

Python is een heel populaire programmeertaal voor een groot scala aan AI-toepassingen en data-analyses. Maar dat leidt ertoe dat er ook steeds nieuwe frameworks worden gepubliceerd die echter tot gevolg hebben dat er fragmentatie plaatsvindt in de bouwblokken van het ecosysteem, de arrays of tensors en de dataframe libraries.

Tensorflow, PyTorch, NumPy, CuPy, MXNet, Xarray, Dask zijn maar enkele van de arrays die nu vaak worden gebruikt. Populaire dataframe libraries zijn onder meer  Pandas, PySpark, cuDF, Vaex, Modin, Dask, Ibis en Apache Arrow.

Om te wisselen tussen verschillende frameworks moet vaak veel werk gestoken worden in het opnieuw implementeren van een library en het trainen van de gebruikers in het gebruik van een andere API.

Dat kan anders, heeft een groep bedrijven verzameld in het Consortium for Python Data API Standards bedacht. Ze hebben het initiatief genomen om te komen tot een betere uitwisseling tussen de verschillende projecten. Maar de groep zegt zelf dat het doel ambitieus is. Er zijn veel hobbels op de weg, bijvoorbeeld uitzoeken wat de gevolgen zijn van techniekkeuzes voor elk van de afzonderlijke libraries.

De route die het consortium wil volgen staat uitgebreid beschreven in een blog.

Lees meer over
Lees meer over Development OP AG Intelligence
Reactie toevoegen
De inhoud van dit veld is privé en zal niet openbaar worden gemaakt.