Cuda NVIDIA 드라이버 충돌 디버깅

Cuda NVIDIA 드라이버 충돌 디버깅

저는 GeForce 690 GPU와 함께 헤드리스 Ubuntu 서버 14.04를 실행하여 흥미로운 Cuda 기계 학습 작업을 수행하려고 합니다. 드라이버가 멈추는 문제가 있어서 디버깅에 도움이 필요합니다. 이것은 카드가 계산적으로 잘 작동하는 데 사용되는 새로운 문제입니다.

문제는 기본적으로 카드에 연결을 시도하는 모든 프로그램이 중단된다는 것입니다. 이것은 내가 직접 작성한 매우 간단한 프로그램과 nvidia에서 제공하는 nvidia-smi 바이너리 모두에서 발생합니다. strace를 통해 각각을 실행했는데 모두 /dev/nvidiactl 장치를 열려고 하는 개방형 시스템 호출에 걸려 있습니다.

프로그램이 중단되면 더 이상 신호를 수신할 수 없습니다(kill -9는 효과가 없습니다). 재부팅해야만 중지할 수 있습니다.

NVIDIA 드라이버를 강제로 rmmod하려고 했지만 사용 중이라고 합니다. lsof는 실제로 /dev/nvidiactl에 대한 파일 설명자를 보유하는 프로그램이 없음을 보여줍니다.

컴퓨터에 연결된 모니터가 없고 그래픽 프로그램(X, gnome, Unity 등)이 실행되고 있지 않습니다.

시스템 수준에서 이와 같은 디버깅을 시작하는 가장 좋은 방법은 무엇입니까? 드라이버 코드가 독점이라서 어렵네요...

관련 정보