0
我沒有很多信息,所以請讓我知道我能做些什麼來診斷此問題。HPC計算節點沒有運行作業
我的HPC有幾個計算節點,我昨晚提交的其中一個作業在運行幾個小時後就暫停了。今天早上我用qstat進行了檢查,發現自從我上次檢查它之後,它沒有取得任何進展。其他節點似乎處理得很好。
我刪除了作業並重新提交了該作業,但它看起來就好像它在隊列中一樣,即使在它之前沒有計劃其他作業。
gstat顯示它沒有排隊的進程,但節點處於活動狀態。
qstat命令-s說「不運行:排水系統,讓飢餓的作業運行」
如果它是有幫助的,這是建立在一個CentOS 6.5的環境。
我還能做些什麼來診斷這個問題?