스케줄러 Slurm에 익숙하신 분들께 질문이 있습니다. 때때로 다음과 같은 오류 메시지가 표시됩니다. slurmstepd: 오류: 특정 지점에서 단계 메모리 제한이 초과되었습니다.
나는 이것이 내 프로세스에 충분한 메모리가 할당되지 않았다는 것을 의미한다는 것을 알고 있습니다. 그럼에도 불구하고 프로세스는 스케줄러에 의해 종료되지 않으며 일반적으로 무해해 보입니다. 프로그램이 완료될 때까지 실행되고 출력 파일의 상태가 양호해 보입니다.
내가해야합니까언제나해당 오류 메시지가 나타나면 출력에 오류가 있다고 가정하고 프로그램을 다시 실행하시겠습니까? 가끔 할당된 메모리를 초과해도 프로그램이 종료되지 않는 이유는 무엇입니까?
답변1
SLURM에 의해 작업이 종료되었다는 메시지를 받지 않고 sacct에 완료 상태가 표시되지 않는 한 작업이 완료되었다고 합리적으로 가정할 수 있습니다.