콜드 부팅 후 Linux가 정지됨: "NVRM: GPU가 버스에서 떨어졌습니다.", Xid 79

콜드 부팅 후 Linux가 정지됨: "NVRM: GPU가 버스에서 떨어졌습니다.", Xid 79

내 구성은 다음과 같습니다.

  • AMD 라이젠 9 7950X 16코어
  • 기가바이트 X670E 어로스 마스터
  • DDR5 Corsair Revenge 5200MHz 16GB
  • PNY 엔비디아 지포스 RTX 4080

Windows 11 및 Ubuntu 23.04 이중 부팅이 있습니다. Windows가 잘 실행됩니다. 리눅스,모든전원을 껐다 켠 후(예: "콜드 부팅") 컴퓨터를 켜면 몇 분 내에 작동이 멈춥니다. 행잉은 내가 하고 있는 모든 작업에서 화면이 멈추고 아무 일도 일어나지 않는다는 것을 의미합니다. 심지어 키보드도 마찬가지입니다. 컴퓨터의 하드웨어 재설정을 수행해야 합니다. 때로는 몇 분 후에 자체적으로 다시 시작되는 경우도 있습니다.

다시 시작한 후에는 더 이상 문제 없이 하루 종일 일할 수 있었습니다. 나는 컴퓨터를 켜고, 로그인하고, 다시 시작해 보았습니다. 절대,어쨌든 얼어붙어야 해.

내가 확인한 다른 사항:

  • DDR5 모듈이 2개 있었는데 그 중 하나에 결함이 있어서 제거했습니다. 어쨌든 실패 문제는 Windows와 Linux에서 다르게 발생합니다.

  • RAM 모듈을 다른 슬롯(예: A2에서 B2로)으로 옮겨보세요.

  • memtest86+를 몇 번 실행하세요.

  • 그래픽 카드용 독점 드라이버를 제거했습니다. 현재 저는 기본 오픈 소스 xserver-xorg-video-nouveau(GPU 가속 없음)를 사용하고 있습니다.

  • xorg와 wayland 사이를 전환해 보세요

  • 일부 시스템 로그(dmesg, syslog, xorg)를 확인했지만 관련 항목을 찾지 못했습니다(적어도 저에게는!).

  • 최신 패키지 버전으로 업데이트

  • Ubuntu를 처음부터 다시 설치

  • BIOS를 최신 버전으로 업데이트하세요.

  • pcie_aspm=off커널 옵션이 추가되었습니다.

이 설명이 올바른 방향으로 나아가는 데 도움이 될 수 있습니까? 정지 원인을 찾으려면 또 어떻게 해야 합니까? 로그 파일에서 무엇을 찾아야 합니까?

고쳐 쓰다

Artem S. Tashkinov 사용자 덕분에 시스템이 여전히 활성 상태이고 정지 중에도 SSH 연결을 허용하는 것을 발견했습니다.

dmesgGPU가 범인임을 분명히 지적합니다.

여기에 이미지 설명을 입력하세요.

여기나는 이것이 nvidia의 버그인 것 같다는 것을 읽었습니다. 왜냐하면 - 사용자와 마찬가지로 - 1. 내가 무엇을 하든, 전혀 활동이 없을 때에도 발생합니다(따라서 hot/ps 이유가 없음). 2. 재부팅 후 하루 종일 잘 작동합니다. 3. Windows에서는 전혀 문제가 없습니다.

나는 그것과 함께 살아야합니까? 아니면 고칠 수 있는 방법이 있나요?

답변1

dmesg의 오류로 판단하면 NVIDIA 드라이버가 GPU를 물리적으로 "잃어버렸습니다". Linux 시스템에는 더 이상 존재하지 않습니다.

이러한 오류는 GPU에 일종의 오작동이 있음을 나타낼 수 있습니다.

  1. 다시 설치해 보세요. (제거한 후 너무 큰 압력을 가하지 말고 단단히 다시 장착하세요.)
  2. PSU를 더 강력한 모델로 교체해보세요
  3. GPU의 전원 케이블이 커넥터에 단단히 연결되어 있는지 확인하세요.
  4. 팬이 회전하는지 확인하세요. nvidia-smi텍스트 출력을 보는 것이 좋을 것입니다.
  5. Windows에서 OCCT(GPU/PSU 테스트)를 실행해 보세요.
  6. 마지막으로 최신 Linux 드라이버(작성 당시 버전 530.41.03)를 실행하고 있는지 확인하세요.

관련 정보