slurm

    0熱度

    1回答

    我正在與SLURM的作業陣列,具有以下作業陣列的腳本(即我sbatch job_array_script.sh [args]運行: #!/bin/bash #SBATCH ... other options ... #SBATCH --array=0-1000%200 srun ./job_slurm_script.py $1 $2 $3 $4 echo 'open' > stat

    2熱度

    1回答

    sbatch的「批處理腳本」的語法(以及語義)是否在任何地方正式記錄? (我在尋找正式文件,而不是實例)。 手冊頁對sbatch的DESCRIPTION節開始這一段: sbatch submits a batch script to Slurm. The batch script may be given to sbatch through a file name on the comm

    1熱度

    1回答

    Slurm工作會計日誌可以使用sacct訪問,但過了一段時間後,作業將從中刪除。如何查看在哪個時間段內或該日誌清除的頻率?

    2熱度

    1回答

    我有我使用slurmsbatch運行Python腳本提交: sbatch batch.py 當我這樣做,因爲我認爲這事情不正常工作,batch.py過程中不繼承權的環境變量。因此,不是從sbatch命令運行的地方運行batch.py,而是從其他地方運行(/我相信)。我設法做一個bash腳本包裹python腳本來解決這個問題: #!/usr/bin/env bash cd path/to/sc

    1熱度

    2回答

    我發現這讓我在這似乎不過工作我仍然不確定,如果我完全理解爲什麼,所以這個問題的腳本到一些非常類似的問題.. 我的問題(例如):在3個節點,我想在每個節點上運行12個任務(總共36個任務)。另外每個任務都使用OpenMP並應使用2個CPU。在我的情況下,一個節點有24個CPU和64GB內存。我的腳本是: #SBATCH --nodes=3 #SBATCH --ntasks=36 #SBATCH

    2熱度

    1回答

    我正在使用羣集來運行我的代碼。我使用runm文件在集羣上運行我的代碼。 RUNM腳本如下:今天 #!/bin/sh #SBATCH --job-name="....." #SBATCH -n 4 #SBATCH --output=bachoutput #SBATCH --nodes=1-1 #SBATCH -p all #SBATCH --time=1-01:00:00 matlab

    2熱度

    1回答

    假設我使用命令行參數運行SLURM作業,比如說srun sleep 1000。 squeue和scontrol show job ID顯示執行的命令sleep,但不顯示其參數1000。 我的問題是,我如何從作業ID中獲取傳遞給SLURM作業命令(本例中爲1000)的參數? 我正在使用slurm 17.02.3。

    0熱度

    1回答

    我正在Bluehive中運行代碼。代碼有一些參數N.如果N很小,那麼代碼運行得很好。但是,對於稍微大的N(例如N = 10)的碼被運行數個小時,並在結束時我收到以下錯誤消息: slurmstepd: error: Exceeded step memory limit at some point. 其中我提交批處理文件有以下代碼: #!/bin/bash #SBATCH -o log.%a.t

    1熱度

    1回答

    我們正在尋找與slurm salloc GPU分配一些意見。目前,給定: % salloc -n 4 -c 2 -gres=gpu:1 % srun env | grep CUDA CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 CUDA_VISIBLE_DEVICES=0 但是,我們希望不僅僅

    1熱度

    1回答

    我正在嘗試編寫一個rake文件,我首先要做的是創建單個文件的幾個任務,然後我需要一個任務來並行創建outfiles ,在耙子繼續閱讀下一個任務之前,等待所有這些準備就緒。 這將是這樣的: 首先幾個任務是這樣的: file "file.out" => [dependencies] do sh "echo aaa" end desc "task description" task :