뭔가 디버깅을 하려고 하는데프로그램내 것은 CUDA(특히 CUDA 그래프)를 사용합니다. 프로그램은 (가끔) 오류를 발생시킨 후 비교적 정상적으로 종료됩니다. 그러나 실패한 후 GPU를 사용하여 다른 프로그램을 실행하려고 하면 시작 시 즉시 멈추고 kill -KILL
루트에서도 종료할 수 없습니다.
내 dmesg 출력(Linux 시스템)을 보면 다음 줄이 표시됩니다.
[ 155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCntr from proprietary module nvidia, inheriting taint.
[ 155.813728] nvidia-uvm: Loaded the UVM driver, major device number 236.
[ 209.863685] NVRM: GPU at PCI:0000:01:00: GPU-82f73d0a-cec0-ed8b-f7da-e87d7ed83f69
[ 209.863689] NVRM: Xid (PCI:0000:01:00): 31, pid=2823, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7fcb_83c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
[ 225.483961] NVRM: Xid (PCI:0000:01:00): 31, pid=3114, name=simpleCudaGraph, Ch 00000010, intr 10000000. MMU Fault: ENGINE GRAPHICS GPCCLIENT_T1_0 faulted @ 0x7f3e_d5c00000. Fault is of type FAULT_PDE ACCESS_TYPE_READ
어떻게 되어가나요?
내 시스템에 대한 일부 정보: Devuan Daedalus, 커널 6.1.20-1. CPU는 인텔 i5 7600K입니다. 다른 정보가 유용할 경우 문의해 주시면 추가하겠습니다.