slurm을 사용하여 pcluster의 컴퓨팅 노드에서 SSH 키 변경

slurm을 사용하여 pcluster의 컴퓨팅 노드에서 SSH 키 변경

로그인 노드는 현재 컴퓨팅 노드 중 하나이며 별도의 대기열에 있습니다. 이 로그인 노드에 대해 /etc/ssh에 사용자 정의 SSH 키를 설정하려고 합니다.

설치 후 스크립트에 사용자 정의 SSH 키를 도입하려고 시도했지만 어떤 이유로 슬럼이 작동을 멈췄습니다. 작업을 제출하려고 하면 다음과 같이 표시됩니다. sbatch: error: Batch job submission failed: Invalid account or account/partition combination specified.

systemctl restart slurmctld.service모든 것이 빌드된 후 헤드 노드에서 slurm을 수동으로 다시 시작하면 이 오류가 사라집니다.

루트 사용자는 여전히 작업을 제출할 수 있습니다.

우리는 사용자가 도메인 이름을 통해 노드에 SSH로 접속할 수 있고 클러스터를 재구축할 때마다 ecdsa 키를 변경하는 것에 대해 불평하지 않기를 원하므로 동일한 키 세트를 유지하려고 합니다.

그렇다면 로그인 노드에 사용자 정의 SSH 키를 설정하는 가장 좋은 방법은 무엇입니까?

/var/log/slurmd.log

[2023-06-13T04:01:28.145] error: Node configuration differs from hardware: CPUs=2:2(hw) Boards=1:1(hw) SocketsPerBoard=2:1(hw) CoresPerSocket=1:1(hw) ThreadsPerCore=1:2(hw)
[2023-06-13T04:01:28.604] CPU frequency setting not configured for this node
[2023-06-13T04:01:29.003] slurmd version 23.02.2 started
[2023-06-13T04:01:29.844] slurmd started on Tue, 13 Jun 2023 04:01:29 -0400
[2023-06-13T04:01:29.844] CPUs=2 Boards=1 Sockets=2 Cores=1 Threads=1 Memory=3850 TmpDisk=71667 Uptime=324 CPUSpecList=(null) FeaturesAvail=(null) FeaturesActive=(null)

몇 번의 시행착오 끝에 언뜻 관련이 없어 보이는 이 코드 도입이 문제라는 것을 알게 되었습니다.

관련 정보