2017-04-11 56 views
0

我所建造的SGE在源代碼中的四個節點的集羣中運行一個任務。 Centos7中的操作系統。當我在集羣中提交一些簡單的任務時,我發現只有一個任務在一個節點上運行。有什麼問題?這是我的任務代碼:SGE只能在一個節點

sleep 60 
echo "done" 

,這是我的CMD提交任務:

DIR=`pwd` 
option="" 
for((i=0;i<5;i++));do 
    qsub -q multislots $option -V -cwd -o stdout -e stderr -S /bin/bash $DIR/test.sh 
    sleep 1 
done 

時qstat命令-f運行,它表明:enter image description here

+0

在您的截圖我看到3個節點上運行3個項目(上node332工作505,上node335和工作504 node336任務506,如果我沒有記錯的話)是什麼讓你說有一個單獨的節點上運行單個任務? –

+0

我的意思是node335有16個插槽和job506只使用一個,有兩個作業在排隊等候時,爲什麼沒有左邊兩個工作運行? – MUYOUHUIYAO

+0

當我查看該文件默認/卷軸/ qmaster假/短信,我看到錯誤:「任務519.1作業之前assumedly失敗主機node332因爲:無法找到一個未使用的add_grp_id」 – MUYOUHUIYAO

回答

0

鑑於有關作業錯誤信息失敗的原因是:「找不到未使用的add_grp_id」。你應該檢查什麼gid_range在上海黃金交易所的配置設置(全局和也如果每個主機一個)。它應該是一系列未使用的組ID。至少需要與節點上的作業一樣多的gid。

如果不是它嘗試在排隊的作業之一運行qalter進行-w v和qalter進行-w p來看看爲什麼他們沒有被啓動。

相關問題