GPU RTX 3090을 일정 기간 사용한 후에도 계속 ERR이 발생합니다.

GPU RTX 3090을 일정 기간 사용한 후에도 계속 ERR이 발생합니다.

내 컴퓨터의 GPU 관련 문제를 해결하려고 노력해 왔습니다. 현재 GPU는 일부 훈련 작업을 매우 잘 수행할 수 있습니다. 하지만 입력하면 ERR 로 이동합니다 nvidia-smi. 그렇다면 무슨 일이 일어나더라도 sudo -kill 9 PID.

GPU를 다시 시작하려고 하면 다른 프로세스에서 GPU를 사용하고 있기 때문에 다시 시작할 수 없다는 메시지가 표시됩니다. 이를 종료할 수는 없을 것 같습니다. 이런 문제가 계속 발생하고 재부팅하면 문제가 해결된 것 같지만 몇 가지 훈련 후에 문제가 다시 발생합니다. 가장 큰 문제는 대부분의 경우 SSH를 통해 내 컴퓨터에 연결되어 있기 때문에 재부팅하면 누군가에게 내 컴퓨터를 다시 켜도록 요청하거나 직접 수행해야 한다는 것입니다.

내 컴퓨터의 운영 체제는 Manjaro입니다. 하지만 우분투 22.04에서도 비슷한 문제가 있었고

CUDA error: unspecified launch failure

GPU는 1년이 되었고 재부팅하면 훈련할 수 있었기 때문에 이것이 하드웨어와 관련된 것이라고 생각하지 않습니다.

제 컴퓨터 사양은 다음과 같습니다.

  • CPU: 인텔 i9-13900K/KF 5.8GHz
  • 마더보드: MSI PRO Z690-A DDR4
  • 메모리: 64GB DDR4 3200Mhz 2x32GB
  • 전원 공급 장치: Corsair RM1000 80+ Gold Modular

이 머신에는 또 다른 GPU인 RTX 2080 TI도 있습니다.

이 문제에 대한 해결책이 있습니까? 상상할 수 있듯이 이는 작업 흐름에 있어 매우 우려스럽고 문제가 되는 문제입니다.

최고야, 루카

답변1

GPU는 1년이 되었고 재부팅하면 훈련할 수 있었기 때문에 이것이 하드웨어와 관련된 것이라고 생각하지 않습니다.

그럴 수도 있습니다.

관련 정보