SSH를 통해 연결하고 병렬 프로세스가 실행 중이면 모든 병렬 프로세스에 대한 인터넷 연결이 끊어집니다. 다시 연결하면 로그 파일에 다음 메시지가 표시됩니다.
--------------------------------------------------------------------------
MPI_ABORT was invoked on rank 12 in communicator MPI COMMUNICATOR 4 DUP FROM 0
with errorcode 15.
NOTE: invoking MPI_ABORT causes Open MPI to kill all MPI processes.
You may or may not see output from other processes, depending on
exactly when Open MPI kills them.
--------------------------------------------------------------------------
0:Terminate signal was sent, status=: 15
(rank:0 hostname: pid:2953):ARMCI DASSERT fail. ../../ga-5-4/armci/src/common/signaltrap.c:SigTermHandler():477 cond:0
분배하다
설명: Ubuntu 16.04.6 LTS 버전:
16.04 코드명: xenial
이 충돌을 어떻게 방지할 수 있나요?
답변1
tmux가 여기에 대한 해결책입니다. 문제는 SSH 연결이 닫히면 실행 중이던 모든 bash 세션이 종료된다는 것입니다. 이 문제를 해결하려면 다음을 입력한 tmux
후 run을 입력하여 프로그램 실행을 시작하세요. 그런 다음 ctrl+b를 누른 다음 d를 눌러 종료할 수 있습니다. 이렇게 하면 코드가 별도의 bash 세션에서 실행되고 ssh를 닫아도 계속 실행됩니다. ssh user@ip ps a
사용자와 IP를 실제 IP로 대체하여 실행하고 연결을 닫은 후에도 프로세스가 계속 실행되고 있는지 확인할 수 있습니다 .