SLURM 클러스터에서 srun을 사용하여 컴퓨팅 노드를 시작했습니다. SSH 연결이 끊어졌지만 노드가 여전히 활성 상태이고 GPU 리소스를 소비하고 있습니다. 이 노드에 어떻게 다시 연결합니까?
답변1
srun
Slurm에서 노드를 시작하지 마세요. 기존 노드의 셸 세션을 통해 대화형 작업을 시작합니다. 노드가 활성 상태이고 다른 작업이 노드의 리소스를 소비하고 있습니다. 사용자가 노드에서 연결을 끊으면 또는 tmux
같은 유틸리티를 사용하지 않는 한 작업이 종료됩니다.screen