如何在Google Dataproc上運行兩個並行作業

我有一項工作需要很長時間才能在DataProc上運行。與此同時，我需要能夠開展其他小型工作。如何在Google Dataproc上運行兩個並行作業

從我可以從Google Dataproc文檔中收集到的信息來看，該平臺應該支持多個作業，因爲它使用YARN動態分配資源。

但是，當我嘗試啓動多個作業時，它們排隊等待，直到羣集空閒時才啓動。

所有設置都是默認設置。我怎樣才能讓多個作業同時運行？

2017-02-13 fbexiga

Dataproc確實支持多個併發作業。但是，託管多個作業的能力取決於Yarn是否擁有主管應用程序主文件（或作業將排隊）或實際工作人員（或作業需要很長時間）的可用能力。

大型作業請求的容器數量取決於分區數量。使用默認設置，Dataproc工作人員將支持2個Mapper或Reducer任務。如果您正在處理100個文件，並且每個文件都是一個分區，則現在可以分配整個羣集容量。

有幾件事情你可以做：一個單獨的集羣上

2017-02-14 17:39:45 tix

回答