Dataflow kan worden gebruikt voor het snel en geautomatiseerd verwerken en routeren van grote hoeveelheden data; zowel in batch voor bestanden als realtime voor streams. Volgens kenners is Googles Dataflow veel krachtiger dan MapReduce dat nu geldt als Apache's paradepaardje op het gebied van big data. De reden voor Google om Dataflow 'weg te geven' is waarschijnlijk dat het daarmee meer kans maakt een standaard te worden.
Dat is dan weer goed voor onder meer Googles eigen betaalde bigdata-cloudservice Cloud Dataflow.
Eerder al droeg Google de min of meer op Dataflow toegespitse Dataflow Java software development kit (SDK) over aan Apache. Waarschijnlijk zal binnenkort ook de Dataflow Python SDK dezelfde route volgen, zo valt op te maken uit een blogpost van twee ontwikkelaars bij Google. Deze SDK's worden gebruikt om toepassingen te programmeren die gebruik maken van Dataflow.
Apache Foundation is de organisatie die opensource projecten beheert rond onder meer de bigdata-omgeving Hadoop, de webserver Apache HTTP Server, het Java-ontwikkeltool Ant, het XML-publicatieraamwerk Cocoon, CMS Lenya en spamfilter SpamAssassin.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee