2017-09-26 444 views

回答

1

與Dataproc爲什麼同時提供Hadoop和Spark相同的原因:有時一種編程模型最適合工作,有時候是另一種。同樣,在某些情況下,最適合這項工作的是由Dataflow提供的Apache Beam編程模型。

在很多情況下,一個重要的考慮因素就是已經有一個針對特定框架編寫的代碼庫,並且只想將其部署到Google Cloud上,所以即使比方說Beam編程模型優於Hadoop ,那些擁有大量Hadoop代碼的人可能仍然會選擇Dataproc,而不是在Beam上重寫他們的代碼以在Dataflow上運行。

Spark和梁編程模型之間的差異是相當大的,而且有很多的使用情況下,每一個具有比其他的一大優勢。見https://cloud.google.com/dataflow/blog/dataflow-beam-and-spark-comparison

8

是的,雲計算數據流和雲Dataproc都可以用來實現ETL數據倉庫解決方案。

爲什麼這些產品都存在一個總覽可以在谷歌Cloud Platform Big Data Solutions Articles

快速外賣發現:

  • 雲Dataproc爲您提供Hadoop集羣,對GCP,並獲得Hadoop-生態系統工具(如Apache Pig,Hive和Spark);這有很強的吸引力,如果你已經熟悉的Hadoop工具,並有Hadoop作業
  • 雲數據流爲您提供了運行Apache Beam基於工作的地方,在GCP,而你並不需要解決集羣上運行的作業的共同方面(例如,平衡工作,或縮放作業的工作人員數量;默認情況下,這是自動管理的,適用於批處理和流媒體) - 在其他系統上這可能非常耗時
    • Apache梁是重要的考慮因素;梁作業準備移植跨越「跑腿」,其中包括雲數據流,並讓你專注於你的邏輯運算,而不是一個「亞軍」的工作方式 - 相比較而言,創作火花作業時,你的代碼是綁定到亞軍,星火,而亞軍是如何工作的
    • 雲數據流也提供了創建基於「模板」,它可以幫助簡化其中的差異參數值
常見任務作業的能力