mpirun은 인터넷 연결이 끊어지면 병렬 프로세스 ssh를 종료합니다.

mpirun은 인터넷 연결이 끊어지면 병렬 프로세스 ssh를 종료합니다.

SSH를 통해 연결하고 병렬 프로세스가 실행 중이면 모든 병렬 프로세스에 대한 인터넷 연결이 끊어집니다. 다시 연결하면 로그 파일에 다음 메시지가 표시됩니다.

--------------------------------------------------------------------------
MPI_ABORT was invoked on rank 12 in communicator MPI COMMUNICATOR 4 DUP FROM 0 
with errorcode 15.

NOTE: invoking MPI_ABORT causes Open MPI to kill all MPI processes.
You may or may not see output from other processes, depending on
exactly when Open MPI kills them.
--------------------------------------------------------------------------
0:Terminate signal was sent, status=: 15
(rank:0 hostname: pid:2953):ARMCI DASSERT fail. ../../ga-5-4/armci/src/common/signaltrap.c:SigTermHandler():477 cond:0

분배하다

설명: Ubuntu 16.04.6 LTS 버전:
16.04 코드명: xenial

이 충돌을 어떻게 방지할 수 있나요?

답변1

tmux가 여기에 대한 해결책입니다. 문제는 SSH 연결이 닫히면 실행 중이던 모든 bash 세션이 종료된다는 것입니다. 이 문제를 해결하려면 다음을 입력한 tmux후 run을 입력하여 프로그램 실행을 시작하세요. 그런 다음 ctrl+b를 누른 다음 d를 눌러 종료할 수 있습니다. 이렇게 하면 코드가 별도의 bash 세션에서 실행되고 ssh를 닫아도 계속 실행됩니다. ssh user@ip ps a사용자와 IP를 실제 IP로 대체하여 실행하고 연결을 닫은 후에도 프로세스가 계속 실행되고 있는지 확인할 수 있습니다 .

관련 정보