저는 THCP 디스크 없는 서버에서 MPI를 사용해 왔습니다. 하지만 MPI를 사용하여 작업을 실행하면 SSH 연결 끊김으로 인해 프로세스가 종료되는 경우가 있습니다.
client_loop: send disconnect: Broken pipe
단일 작업에는 오류가 없거나 오류가 없습니다.
그리고 작업이 종료된 후 각 CPU에 SSH를 시도하면 잘 연결됩니다.
내 소스 코드는 INTEL MKL 라이브러리를 사용하고 서버는 16개의 AMD Ryzen 9 5900x CPU와 48GB RAM 메모리로 구성되어 있으며 MPICH3도 사용합니다.
이 문제를 어떻게 해결할 수 있나요?
sshd 연결 끊김과 관련된 오류 로그를 비결정적으로 찾는 방법이 있습니까?
감사해요.