5.15.15 AMD GPU가 과열되어 커널 업데이트 후 종료되는 현상(Pop!_OS 21.10)

5.15.15 AMD GPU가 과열되어 커널 업데이트 후 종료되는 현상(Pop!_OS 21.10)

저는 이곳 포럼에 처음 들어왔지만 최근에 시스템 업데이트를 설치한 후 경험하는 몇 가지 특이한 문제에 대해 질문이 있습니다. 커널 5.15.15(또는 최신 Mesa 드라이버 - 21.3.6)로 업그레이드한 후 로드 시 GPU가 비상 접합 온도(115C)에 도달하여 경고와 함께 닫기 없이 시스템이 실행되는 문제가 발생했습니다.

Feb 11 23:02:23 pop-os kernel: amdgpu 0000:07:00.0: amdgpu: ERROR: GPU over temperature range(SW CTF) detected!
Feb 11 23:02:23 pop-os kernel: amdgpu 0000:07:00.0: amdgpu: ERROR: System is going to shutdown due to GPU SW CTF!

전체 systemd/journald 로그를 찾을 수 있습니다.여기amdgpu 오류는 라인 256 부근에서 발생하며 그 이후의 모든 로그는 종료 프로세스를 나타냅니다.

일반적으로 저는 시스템이 이 온도에 도달하기 전에 GPU를 조절해야 한다고 생각하지만 제가 틀렸을 수도 있습니다. 어쨌든 문제는 새로운 것 같습니다. 이전 커널(5.13)과 Mesa 드라이버(안타깝게도 이전 버전 번호는 모르겠습니다)를 사용하여 동일한 환경에서 시스템을 실행해도 시스템이 종료되거나 종료된 적이 없습니다. 시스템이 종료되는 원인이 됩니까? Windows에서 GPU를 실행하는 데 문제가 있습니다. 하지만 최신 시스템 업데이트 이후 24시간 동안 이 문제가 3번이나 발생했습니다.

맥락에 따라 내 시스템은 다음과 같습니다.

  • 운영 체제: Pop!_OS 21.10 x86_64
  • 커널 버전: 5.15.15-76051515-generic#202201160435~1642693824~21.10~97db1bb
  • GPU 1: AMD 라데온 RX 6800 XT
  • GPU 2: Nvidia GeForce RTX 3060 Ti(Linux에서는 사용되지 않으며 드라이버가 설치되지 않음)
  • CPU: AMD 라이젠 7 5800X

이것이 알려진 문제인지 아니면 해결할 수 있는 문제인지 아는 사람이 있습니까? 어떤 도움이라도 대단히 감사하겠습니다!

미리 감사드립니다!

관련 정보