Slurm 오류에서 잘못된 노드 이름을 찾는 방법: "sbatch: 오류: 일괄 작업 제출 실패: 지정된 노드 이름이 잘못되었습니다."

Slurm 오류에서 잘못된 노드 이름을 찾는 방법: "sbatch: 오류: 일괄 작업 제출 실패: 지정된 노드 이름이 잘못되었습니다."

이 bash 스크립트의 경우 "sbatch: 오류: 일괄 작업 제출 실패: 지정된 노드 이름이 유효하지 않습니다."라는 오류가 발생합니다.

#!/bin/bash -l
#SBATCH --gpus=1
#SBATCH -p overcap
#SBATCH -A overcap
#SBATCH --signal=USR1@120
#SBATCH --time=10:00
#SBATCH --requeue
#SBATCH --nodelist=brainiac,omgwth,cyborg,sonny,robby,spd-13,qt-1,dave,nestor,crushinator,deebot,xaea-12,baymax,megabot,randotron,chappie,heistotron,roberto,herbie,shakey,chitti,samantha,clippy,kitt,tachikoma
#SBATCH -o err_test.out

srun python src/train.py

목록에서 어떤 노드가 유효하지 않은지 알아내는 방법이 있나요?

답변1

slurm으로 구성된 유효한 노드 이름 목록을 사용하거나 sinfo가져올 수 있습니다. sinfo -N그런 다음 스크립트에 있는 내용과 비교하세요.

관련 정보