제가 직면한 문제는 동일한 slurm.conf 파일을 사용한다는 측면에서 slurmctld와 slurmd가 동기화되지 않는다는 것입니다. 따라서 다음과 같은 결과를 얻을 수 있습니다.
error: Node node1 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node2 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node3 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
error: Node node4 appears to have a different slurm.conf than the slurmctld. This could cause issues with communication and functionality. Please review both files and make sure they are the same. If this is expected ignore, and set DebugFlags=NO_CONF_HASH in your slurm.conf.
slurmctld/slurmd를 쿼리하는 방법(로그 오류 구문 분석 이외)이 있습니까?개별적으로다시 시작하거나 재구성해야 하는지 이해하기 위해 실행 중인 구성에 대해 알고 계십니까? 내 생각에는 해시를 얻는 것만으로도 서로 비교할 수 있을 것 같습니다.
slurm.conf
업데이트: 파일을 읽을 시간을 아는 것도 도움이 될 것입니다.
답변1
나는 사용하는 것이 좋습니다구성 없음슬러리 세션에서. 데몬이 시작될 때 slurm 로그에 오류 메시지가 계속 표시되지만 무시해도 됩니다. 모든 slurmd 시스템은 slurm 컨트롤러에서 올바른 구성을 얻습니다.