내 컴퓨터의 GPU 관련 문제를 해결하려고 노력해 왔습니다. 현재 GPU는 일부 훈련 작업을 매우 잘 수행할 수 있습니다. 하지만 입력하면 ERR 로 이동합니다 nvidia-smi
. 그렇다면 무슨 일이 일어나더라도 sudo -kill 9 PID
.
GPU를 다시 시작하려고 하면 다른 프로세스에서 GPU를 사용하고 있기 때문에 다시 시작할 수 없다는 메시지가 표시됩니다. 이를 종료할 수는 없을 것 같습니다. 이런 문제가 계속 발생하고 재부팅하면 문제가 해결된 것 같지만 몇 가지 훈련 후에 문제가 다시 발생합니다. 가장 큰 문제는 대부분의 경우 SSH를 통해 내 컴퓨터에 연결되어 있기 때문에 재부팅하면 누군가에게 내 컴퓨터를 다시 켜도록 요청하거나 직접 수행해야 한다는 것입니다.
내 컴퓨터의 운영 체제는 Manjaro입니다. 하지만 우분투 22.04에서도 비슷한 문제가 있었고
CUDA error: unspecified launch failure
GPU는 1년이 되었고 재부팅하면 훈련할 수 있었기 때문에 이것이 하드웨어와 관련된 것이라고 생각하지 않습니다.
제 컴퓨터 사양은 다음과 같습니다.
- CPU: 인텔 i9-13900K/KF 5.8GHz
- 마더보드: MSI PRO Z690-A DDR4
- 메모리: 64GB DDR4 3200Mhz 2x32GB
- 전원 공급 장치: Corsair RM1000 80+ Gold Modular
이 머신에는 또 다른 GPU인 RTX 2080 TI도 있습니다.
이 문제에 대한 해결책이 있습니까? 상상할 수 있듯이 이는 작업 흐름에 있어 매우 우려스럽고 문제가 되는 문제입니다.
최고야, 루카
답변1
GPU는 1년이 되었고 재부팅하면 훈련할 수 있었기 때문에 이것이 하드웨어와 관련된 것이라고 생각하지 않습니다.
그럴 수도 있습니다.
- PSU 확인/교체(전압 관련), GPU 재설치, 온도 확인, 전원 코드 다시 연결.
- 최신 출시된 드라이버(현재 550.54.14)를 설치/사용해 보세요.
- 여기에서도 이 질문을 해보세요.https://forums.developer.nvidia.com/c/gpu-graphics/linux/148