2017-02-13 60 views
1

我有一項工作需要很長時間才能在DataProc上運行。與此同時,我需要能夠開展其他小型工作。如何在Google Dataproc上運行兩個並行作業

從我可以從Google Dataproc文檔中收集到的信息來看,該平臺應該支持多個作業,因爲它使用YARN動態分配資源。

但是,當我嘗試啓動多個作業時,它們排隊等待,直到羣集空閒時才啓動。

所有設置都是默認設置。我怎樣才能讓多個作業同時運行?

回答

2

Dataproc確實支持多個併發作業。但是,託管多個作業的能力取決於Yarn是否擁有主管應用程序主文件(或作業將排隊)或實際工作人員(或作業需要很長時間)的可用能力。

大型作業請求的容器數量取決於分區數量。使用默認設置,Dataproc工作人員將支持2個Mapper或Reducer任務。如果您正在處理100個文件,並且每個文件都是一個分區,則現在可以分配整個羣集容量。

有幾件事情你可以做:一個單獨的集羣上

  • 運行的小作業。你理想的集羣配置是當一個人的工作佔據了整個集羣,或N職位均勻共享集羣

  • 添加額外的工人到您當前羣集和/或搶佔工人實驗(您可以使用clusters update命令調整[2] )

  • (高級)試驗不同的紗線調度(參見[1]用於與隊列公平調度器)

[1] https://blog.cloudera.com/blog/2016/06/untangling-apache-hadoop-yarn-part-4-fair-scheduler-queue-basics/

[2] https://cloud.google.com/sdk/gcloud/reference/dataproc/clusters/update

相關問題