GPU가 버스에서 떨어져 유휴 상태임

GPU가 버스에서 떨어져 유휴 상태임

내가 가지고 있는 두 서버(하나는 RTX2080Ti, 다른 하나는 RTX3080) 중 두 서버 모두 기존 시스템에서 예상대로 실행됩니다! Centos 7 또는 8, 최신 시스템(Centos 9)을 실행하는 경우 유휴 상태일 때 서버가 계속 정지되고 로그에 "GPU가 버스에서 떨어졌습니다"라고 표시됩니다!

이것이 전원 문제가 아니라고 100% 확신하지만 시스템이 유휴 상태이고 커널의 유휴 드라이버가 작업을 시작하면 마더보드가 카드에 예상대로 작동할 만큼 충분한 전원을 공급하지 못하는 것 같습니다. (나는 즉흥적으로 연주하고 있습니다!) ..

동일한 이전 OS에서 최신 커널(예전에는 잘 작동함)을 컴파일하고 실행하면 최신 커널에 문제가 있습니다. 따라서 최근 커널에 버그가 있는 것으로 의심됩니다...

좋아, 이제 최신 OS(Centos 9)에서 이전 커널(이전에 잘 작동했던 동일한 버전)을 실행하기로 결정했는데, 이 문제가 발생하고 있다는 사실에 놀랐습니다...

그래서 혼란스러워요! OS 문제라면 커널을 업데이트할 때 작동하던 이전 OS가 작동하지 않는 이유는 무엇입니까? ! 이것이 커널 문제라면 잘 작동하던 이전 커널이 최신 OS에서 실패하는 이유는 무엇입니까?

이제 문제는... 시스템이 유휴 상태일 때 커널과 운영 체제 사이의 종속성 또는 라이브러리는 무엇입니까? ! 내가 이해하는 한 이것은 커널 작업입니다!

언급해야 할 더 중요한 점은 CPU 유휴 드라이버를 비활성화하고 ACPI 드라이버를 사용하면(부팅 시 유휴=nomwait 커널 옵션을 통해) 문제를 해결할 수 있지만 시스템이 상대적으로 커지고 팬 속도가 상대적으로 높다는 것입니다!

관련 정보