2017-04-10 216 views
0

當我們通過sbatch提交作業時,pid按增量順序給出的作業。根據我的觀察,這個命令從1開始。Slurm:是否可以通過sbatch發送或更改提交的作業的pid

sbatch -N1 run.sh 
Submitted batch job 20 

//目標是如果可能,更改提交的批作業的ID。

[Q1]例如,在slurm下有一個正在運行的工作。當我們重新啓動節點時,作業是否繼續運行?並且它的pid是否更新或保持原樣?

[Q2]是否可以使用集羣所有者想要提供的唯一ID提供或更改提交作業的pid?

謝謝你寶貴的時間和幫助。

回答

2

如果節點失敗,則會重新執行作業 - 如果slurm.conf中的JobRequeue參數允許這樣做。它將得到與先前開始運行相同的作業ID,因爲這是管理作業的唯一標識符。 (用戶可以使用--no-requeue sbatch參數覆蓋重新排序。)

無法更改作業ID,不可以。

+0

'JobRequeue = 1'在我的slurm.conf文件中被評論過。如果我能夠做到這一點,按照我的理解將會完成,但是工作將從一開始就開始運行,並且不會在關閉之前離開它的位置。如果在重啓節點後會出現'--no-requeue',那麼作業將不會再次正確運行? @ciaron – Alper

+0

使用'JobRequeue = 0'或'--no-requeue',作業不會自動重啓 - 否則會從頭開始重啓。 如果您希望作業在他們停止的地方重新啓動,您可能需要使用[BLCR](https://slurm.schedmd.com/checkpoint_blcr.html)查看檢查點/重新啓動 – ciaron

相關問題