A100 시스템에는 중지된 후에도 계속해서 메모리를 할당하는 좀비 프로세스가 있는 경우가 많습니다. 나는 보통 이것을 fuser -v /dev/nvidia*
모든 프로세스의 PID를 결정하고 사용하거나 종료하는 데 kill
사용 합니다 fuser -k /dev/nvidia*
.
fuser
결과를 반환하는 데 항상 시간이 걸립니다. 그러나 이제는 합당한 시간 동안 응답하지 않고 명령이 무기한 fuser -v
중단됩니다 . fuser -k
예를 들어 지난번에는 주말 동안 실행했는데 돌아오지 않았습니다. 결국 서버를 다시 시작했습니다.
fuser -v /dev/nvidia0
와 같은 변칙적인 행동을 보여줍니다 lsof /dev/nvidia0
. 온라인에서 이 질문을 찾아보니 위에서 언급한 좀비 프로세스 문제에 대한 답변만 얻었고, 멈췄을 때의 상황을 구체적으로 다루는 질문은 없었 fuser
습니다 lsof
.
머신을 재부팅하지 않고 이 문제를 이상적으로 디버깅/해결하려면 어떻게 해야 합니까?
시스템은 Ubuntu 20.04를 실행합니다.