SSH 연결 끊김으로 인해 MPI 작업이 중지되었습니다.

SSH 연결 끊김으로 인해 MPI 작업이 중지되었습니다.

저는 THCP 디스크 없는 서버에서 MPI를 사용해 왔습니다. 하지만 MPI를 사용하여 작업을 실행하면 SSH 연결 끊김으로 인해 프로세스가 종료되는 경우가 있습니다.

client_loop: send disconnect: Broken pipe

단일 작업에는 오류가 없거나 오류가 없습니다.
그리고 작업이 종료된 후 각 CPU에 SSH를 시도하면 잘 연결됩니다.

내 소스 코드는 INTEL MKL 라이브러리를 사용하고 서버는 16개의 AMD Ryzen 9 5900x CPU와 48GB RAM 메모리로 구성되어 있으며 MPICH3도 사용합니다.

이 문제를 어떻게 해결할 수 있나요?
sshd 연결 끊김과 관련된 오류 로그를 비결정적으로 찾는 방법이 있습니까?

감사해요.

관련 정보