我有一項工作需要很長時間才能在DataProc上運行。與此同時,我需要能夠開展其他小型工作。如何在Google Dataproc上運行兩個並行作業
從我可以從Google Dataproc文檔中收集到的信息來看,該平臺應該支持多個作業,因爲它使用YARN動態分配資源。
但是,當我嘗試啓動多個作業時,它們排隊等待,直到羣集空閒時才啓動。
所有設置都是默認設置。我怎樣才能讓多個作業同時運行?
我有一項工作需要很長時間才能在DataProc上運行。與此同時,我需要能夠開展其他小型工作。如何在Google Dataproc上運行兩個並行作業
從我可以從Google Dataproc文檔中收集到的信息來看,該平臺應該支持多個作業,因爲它使用YARN動態分配資源。
但是,當我嘗試啓動多個作業時,它們排隊等待,直到羣集空閒時才啓動。
所有設置都是默認設置。我怎樣才能讓多個作業同時運行?
Dataproc確實支持多個併發作業。但是,託管多個作業的能力取決於Yarn是否擁有主管應用程序主文件(或作業將排隊)或實際工作人員(或作業需要很長時間)的可用能力。
大型作業請求的容器數量取決於分區數量。使用默認設置,Dataproc工作人員將支持2個Mapper或Reducer任務。如果您正在處理100個文件,並且每個文件都是一個分區,則現在可以分配整個羣集容量。
有幾件事情你可以做:一個單獨的集羣上
運行的小作業。你理想的集羣配置是當一個人的工作佔據了整個集羣,或N職位均勻共享集羣
添加額外的工人到您當前羣集和/或搶佔工人實驗(您可以使用clusters update
命令調整[2] )
(高級)試驗不同的紗線調度(參見[1]用於與隊列公平調度器)
[2] https://cloud.google.com/sdk/gcloud/reference/dataproc/clusters/update