Slurm 스케줄러를 사용하여 2개 이상의 노드에서 GNU Parallel 실행

Question 1

srun다음과 같은 라운드 로빈 방식을 통해 이 작업을 수행할 수 있습니다 .

jobs=({1..4})
nodes=($(scontrol show hostname $SLURM_NODELIST))
for ((n = 0; n < ${#jobs[@]}; n++)); do
  index=$(expr $n % ${#nodes[@]})
  srun --nodes=1 --ntasks=1 --nodelist=${nodes[$index]} \
       --exclusive ./myscript --input infile.txt \
       --setting $n --output out$n &
done
wait

--cpus-per-task=2주어질 것 같아요 srun. 질문이 있으시면 알려주시기 바랍니다. 오늘 아침에 병렬 처리 작업을 하고 있었는데 이 문제를 직접 해결하는 방법을 모르겠습니다. 또한 scancel작업에 GNU 병렬 작업이 포함된 경우 srun.

Answer

srun다음과 같은 라운드 로빈 방식을 통해 이 작업을 수행할 수 있습니다 .

jobs=({1..4})
nodes=($(scontrol show hostname $SLURM_NODELIST))
for ((n = 0; n < ${#jobs[@]}; n++)); do
  index=$(expr $n % ${#nodes[@]})
  srun --nodes=1 --ntasks=1 --nodelist=${nodes[$index]} \
       --exclusive ./myscript --input infile.txt \
       --setting $n --output out$n &
done
wait

--cpus-per-task=2주어질 것 같아요 srun. 질문이 있으시면 알려주시기 바랍니다. 오늘 아침에 병렬 처리 작업을 하고 있었는데 이 문제를 직접 해결하는 방법을 모르겠습니다. 또한 scancel작업에 GNU 병렬 작업이 포함된 경우 srun.

Question 2

저는 현재 GNU Parallel을 사용하여 기본적으로 작업을 원격 클러스터에 "일괄 처리"하고 있습니다.

다음은 스크립트 이름을 제거한 시도입니다.

parallel --colsep '\t' \
         --shuf \
         --jobs=25% \
         --delay=1s \
         ssh -q ${remote} \
         sbatch --chdir="${remote_dir}" \
         --job-name="my-job-name-{1}-{2}-{4}-{5}_{6}" \
         --output="${OUTPUT_PREFIX}/joblogs/%x.out" \
         --error="${OUTPUT_PREFIX}/joblogs/%x.err" \
         my-job.sh \
         "${OUTPUT_PREFIX}/" "{1}" "{2}" "{4}" "{3}" "{5}" "{6}" \
         :::: "${COMPARISONS}" \
         :::: "${REPORTS}" \
         :::: "${METHODS}"

각 ${COMPARISONS}및 변수 ${REPORTS}는 ${METHODS}탭으로 구분된 파일로 에 전달됩니다 sbatch. 기본적으로 이는 인수의 병렬 교차곱을 사용하여 다양한 변형을 제출한 다음 작업 제어가 병렬이 아닌 SLURM에 맡겨집니다.

my-job.sh다음과 같습니다:

#!/usr/bin/env bash

#SBATCH -N 1
#SBATCH -n 1
#SBATCH -c 4
#SBATCH -t 0-01:00:00

exec ~/bin/job.bin $@

대기열이 이를 지원하는 경우 노드를 수동으로 지정할 필요가 없습니다(다른 이유가 없는 한).

이게 도움이 되길 바란다. 나는 실제로 스케줄러를 압도하지 않도록 작업 속도를 늦추는 방법을 찾고 있습니다. (작업이 완료되기 시작할 때까지 큐에 있는 QOS에 충분한 작업을 직접 제출했으며 대부분의 작업은 완료하는 데 몇 초가 걸립니다.) 10 분). Parallel에는 --delay수백 개의 작업을 제출할 때 도움이 될 수 있는 옵션이 있습니다.

sbatch처음 시작한 스크립트에서 병렬 처리를 사용하고 SLURM에서 작업을 시작하게 하려면 @barrymoo의 답변을 더 잘 적용 하고 노드 목록을 제거하는 것이 더 나을 수 있습니다 (다시 말하지만, 하위 집합만 사용하라는 특별한 요구 사항이 없는 한). 노드 목록) 귀하가 사용할 수 있는 노드, 대부분의 HPC는 해당 대기열의 노드 간에 공평하게 설계되었습니다. )

Answer