cuda에서 실행 중인 프로세스가 아무것도 기록하지 않고 종료됩니다.

cuda에서 실행 중인 프로세스가 아무것도 기록하지 않고 종료됩니다.

원격 서버의 CUDA에서 실행 중인 프로세스가 있는데 어느 시점에서 stderr에 아무것도 기록하지 않고 프로세스가 종료됩니다. stdout에 자주 쓰기 때문에 로그를 보면 언제 중단되었는지 확인할 수 있습니다.

확인해 보니 dmesg정전 /var/log/syslog중에 아무 일도 일어나지 않았습니다.

게다가 다른 프로세스도 CUDA, 다른 GPU에서 실행되고 있으며 문제 없이 계속 실행됩니다.

이런 일이 나에게 일어난 것은 이번이 처음이 아니며 나는 여전히 무엇이 잘못되었는지 식별하는 방법을 모릅니다. 그 밖에 확인할 수 있는 것이 있나요?

저는 Ubuntu 18.04와 CUDA 10.0을 실행하고 있으며 프로세스는 Python과 pytorch로 작성되었습니다.

관련 정보