2017-04-06 87 views
0

我沒有很多信息,所以請讓我知道我能做些什麼來診斷此問題。HPC計算節點沒有運行作業

我的HPC有幾個計算節點,我昨晚提交的其中一個作業在運行幾個小時後就暫停了。今天早上我用qstat進行了檢查,發現自從我上次檢查它之後,它沒有取得任何進展。其他節點似乎處理得很好。

我刪除了作業並重新提交了該作業,但它看起來就好像它在隊列中一樣,即使在它之前沒有計劃其他作業。

gstat顯示它沒有排隊的進程,但節點處於活動狀態。

qstat命令-s說「不運行:排水系統,讓飢餓的作業運行」

如果它是有幫助的,這是建立在一個CentOS 6.5的環境。

我還能做些什麼來診斷這個問題?

回答

1

事實證明,運行超過24小時的轉矩腳本會導致暫停被放置到調度器提交的所有其他作業上。我們需要殺死負責任的工作,一切都恢復原狀。