Ubuntu 22.04에서 Slurm cgroups 플러그인 문제 해결

Ubuntu 22.04에서 Slurm cgroups 플러그인 문제 해결

나는 직면하고있다도전적인 질문그리고Slurm cgroups 플러그인Ubuntu 22.04를 실행하는 시스템에서. 우리는 Slurm을 비교적 처음 접했으며 복잡한 컴퓨팅 작업에서 리소스를 더 잘 관리하기 위해 Slurm을 사용하기 시작했습니다. 그러나 특히 Ubuntu 22.04 노드에서 cgroups 플러그인에 문제가 발생했습니다.

우리가 겪고 있는 상황은 다음과 같습니다.

  • 처음에는 노드(2개는 Ubuntu 22.04를 사용하고 하나는 Ubuntu 18.04를 사용)에서 cgroups V2 플러그인을 시도했지만 성공하지 못했습니다.

  • Ubuntu 18.04 노드에서 작업을 실행할 수 있지만 22.04 노드에서는 오류가 발생하는 cgroups V1 플러그인으로 전환했습니다.

  • 이러한 오류는 /sys/fs/cgroup작업 시도를 입력한 후의 노드 및 상태를 포함하여 디렉터리와 관련되어 있습니다 idle.drain

커널 매개변수 수정을 시도했지만 성공하지 못했습니다. Ubuntu 22.04에서 이러한 cgroups 플러그인 오류를 해결하는 방법에 대한 통찰력을 찾고 있습니다.

다음은 오류가 나타나기 시작한 로그입니다.

[2023-10-12T14:50:29.479] [36.batch] error: unable to open '/sys/fs/cgroup/cpuset//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.511] [36.batch] error: unable to mount cpuset cgroup namespace: Device or resource busy
[2023-10-12T14:50:29.511] [36.batch] error: unable to create cpuset cgroup namespace
[2023-10-12T14:50:29.511] [36.batch] error: unable to open '/sys/fs/cgroup/devices//tasks' for reading : No such file or directory
[2023-10-12T14:50:29.512] [36.batch] cgroup/v1: xcgroup_ns_create: cgroup namespace 'devices' is now mounted
[2023-10-12T14:50:29.514] [36.batch] error: common_cgroup_lock error
[2023-10-12T14:50:29.514] [36.batch] error: task_g_pre_setuid: task/cgroup: Unspecified error
[2023-10-12T14:50:29.514] [36.batch] error: Failed to invoke task plugins: one of task_p_pre_setuid functions returned error
[2023-10-12T14:50:29.515] [36.batch] error: called without a previous init. This shouldn't happen!
[2023-10-12T14:50:29.515] [36.batch] error: job_manager: exiting abnormally: Slurmd could not execve job

이 환경에 권장되는 알려진 호환성 문제나 특정 진단 방법이 있습니까?

도움을 주셔서 미리 감사드립니다!

관련 정보