저는 Slurm 작업 관리자를 사용하여 클러스터된 컴퓨터에서 작업하고 있습니다. 방금 멀티스레드 코드를 시작했고 특정 노드 ID에 대한 코어 및 스레드 사용량을 확인하고 싶습니다. 예를 들어,
scoreusage -N 92512
"scoreusage"는 확실하지 않은 명령입니다.
답변1
내장된 SLURM 도구는 매우 기본적이라는 것을 알았습니다. 대신 , 같은 것을 사용하여 htop
작업을 실시간으로 모니터링(실행 중) 할 수 있습니다 .
- 작업이 실행 중인 노드를 확인합니다.
$ scontrol show job $JOB_ID | grep ' NodeList'
NodeList=<HOSTNAME>
ssh
노드 입력:$ ssh <HOSTNAME>
- 필요에 따라 모니터링 프로그램을 실행합니다.
$ htop
답변2
슬럼 클러스터를 운영한 지 몇 년이 지났지만 squeue
원하는 결과를 얻을 수 있을 것입니다. 노력하다:
squeue --nodelist 92512 -o "%A %j %C %J"
(노드 92512의 작업에 대한 작업 ID, 작업 이름, CPU 및 스레드를 제공해야 합니다)
그런데 특정 노드에 대한 세부정보만 특별히 원하지 않는 한 노드 ID보다는 작업 ID로 검색하는 것이 더 좋습니다.
Google을 통해 쉽게 찾을 수 있는 slurm 사용에 대한 문서가 포함된 좋은 사이트가 웹에 많이 있습니다. HPC 클러스터를 실행하는 대부분의 대학 등은 특정 클러스터 사용자 정의의 세부 사항을 기반으로 자체 문서와 도움말 및 "치트 시트"를 작성합니다. )이 만들어졌습니다(따라서 이를 고려하여 클러스터에 예제를 적용하십시오). 사용에 대한 좋은 일반 slurm
문서 도 있습니다.https://slurm.schedmd.com/documentation.html