Google Cloud Dataflow和Google Cloud Dataproc有什麼區別？

我正在使用Google Data Flow來實施ETL數據倉庫解決方案。Google Cloud Dataflow和Google Cloud Dataproc有什麼區別？

展望谷歌雲產品，似乎DataProc也可以做同樣的事情。

它似乎DataProc比DataFlow便宜一點。

有誰知道數據流超過DataProc

的優點/缺點，爲什麼谷歌同時提供？

2017-09-26 KosiB

與Dataproc爲什麼同時提供Hadoop和Spark相同的原因：有時一種編程模型最適合工作，有時候是另一種。同樣，在某些情況下，最適合這項工作的是由Dataflow提供的Apache Beam編程模型。

在很多情況下，一個重要的考慮因素就是已經有一個針對特定框架編寫的代碼庫，並且只想將其部署到Google Cloud上，所以即使比方說Beam編程模型優於Hadoop ，那些擁有大量Hadoop代碼的人可能仍然會選擇Dataproc，而不是在Beam上重寫他們的代碼以在Dataflow上運行。

Spark和梁編程模型之間的差異是相當大的，而且有很多的使用情況下，每一個具有比其他的一大優勢。見https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison。

2017-09-26 23:16:44 jkff

是的，雲計算數據流和雲Dataproc都可以用來實現ETL數據倉庫解決方案。

爲什麼這些產品都存在一個總覽可以在谷歌Cloud Platform Big Data Solutions Articles

快速外賣發現：

雲Dataproc爲您提供Hadoop集羣，對GCP，並獲得Hadoop-生態系統工具（如Apache Pig，Hive和Spark）;這有很強的吸引力，如果你已經熟悉的Hadoop工具，並有Hadoop作業
雲數據流爲您提供了運行Apache Beam基於工作的地方，在GCP，而你並不需要解決集羣上運行的作業的共同方面（例如，平衡工作，或縮放作業的工作人員數量;默認情況下，這是自動管理的，適用於批處理和流媒體） - 在其他系統上這可能非常耗時
- Apache梁是重要的考慮因素;梁作業準備移植跨越「跑腿」，其中包括雲數據流，並讓你專注於你的邏輯運算，而不是一個「亞軍」的工作方式 - 相比較而言，創作火花作業時，你的代碼是綁定到亞軍，星火，而亞軍是如何工作的
- 雲數據流也提供了創建基於「模板」，它可以幫助簡化其中的差異參數值

常見任務作業的能力

2017-09-27 00:44:46

回答