Slurm 클러스터의 컴퓨팅 노드에 대한 명명 체계는 무엇입니까?

Slurm 클러스터의 컴퓨팅 노드에 대한 명명 체계는 무엇입니까?

Debian 11, Slurm 및 다양한 하드웨어를 기반으로 새로운 컴퓨터 클러스터를 구축할 계획입니다. 클러스터는 PXE를 사용하여 네트워크 위치에서 부팅됩니다. 클러스터는 시간이 지남에 따라 확장될 것으로 예상되므로 새 노드를 얼마든지 쉽게 추가할 수 있는 유연성이 필요합니다.

그러나 저는 slurm에 대한 경험이 많지 않습니다. 구성 파일에서 노드를 구성할 수 있다는 제 생각에는 더 나은(=더 동적인) 방법이 있을까요? 또한 노드는 "디스크가 없기" 때문에 기본 호스트 이름이 반드시 필요하지 않으며 DHCP에서 IP 주소를 얻으므로 미리 클러스터를 구성하기가 더 어렵습니다. 이것을 관리할 수 있는 방법이 있어야 할 것 같은데요?

이 문제에 대해 이곳 저곳과 구글에서 검색해 보았지만 2000년대 초반 이후로는 그다지 주목을 받지 못하는 주제인 것 같습니다.

답변1

먼저 클러스터의 각 서버에 호스트 이름과 IP 주소를 할당하도록 DHCP 서버를 구성하겠습니다. 이는 서버의 MAC 주소를 사용하여 쉽게 수행할 수 있습니다.

여러 가지 호스트 이름 템플릿 옵션이 있습니다. Slurm은 구성 파일 및 명령에서 숫자 범위를 지원하므로 , 등의 이름을 사용하면 node001작업 node002이 더 쉬워지고 최대 999개의 노드를 허용할 수 있습니다. sinfo -n node[001-010]호스트 이름의 숫자 부분 뒤에는 문자가 올 수 없습니다 .

사이트의 명명 규칙이 다른 경우 별칭을 slurm 구성 파일에 넣을 수 있습니다.

NodeName=node001 NodeHostName=org-slurm-001

관련 정보