연결이 끊긴 Slurm 컴퓨팅 노드에 다시 연결하는 방법은 무엇입니까?

연결이 끊긴 Slurm 컴퓨팅 노드에 다시 연결하는 방법은 무엇입니까?

SLURM 클러스터에서 srun을 사용하여 컴퓨팅 노드를 시작했습니다. SSH 연결이 끊어졌지만 노드가 여전히 활성 상태이고 GPU 리소스를 소비하고 있습니다. 이 노드에 어떻게 다시 연결합니까?

답변1

srunSlurm에서 노드를 시작하지 마세요. 기존 노드의 셸 세션을 통해 대화형 작업을 시작합니다. 노드가 활성 상태이고 다른 작업이 노드의 리소스를 소비하고 있습니다. 사용자가 노드에서 연결을 끊으면 또는 tmux같은 유틸리티를 사용하지 않는 한 작업이 종료됩니다.screen

관련 정보