시작하기 전에: 유사한 문제에 대해 Arch Linux 포럼의 스레드에 응답했습니다(https://bbs.archlinux.org/viewtopic.php?id=284076), 왜냐하면 저는 Arch에 있기 때문이죠. 더 많은 도움을 받고 다른 배포판을 사용하는 사람도 같은 문제가 있는지 확인하기 위해 여기에 요청하고 있습니다.
커널을 Arch 저장소의 현재 최신 버전(즉, 6.5.2-arch1
이전에 사용했던 버전) 으로 업그레이드한 후 6.5.2-zen1
, 가동 시간 약 5~20분 이내에 발생하여 시스템을 거의 사용할 수 없게 만드는 무작위 GPU 충돌이 발생했습니다.
시스템 로그는 다음과 같이 표시됩니다.
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: [gfxhub0] no-retry page fault (src_id:0 ring:24 vmid:1 pasid:32814, for process chrome pid 4073 thread chrome:cs0 pid 4101)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: in page starting at address 0x0000e38dbdd3b000 from IH client 0x1b (UTCL2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: VM_L2_PROTECTION_FAULT_STATUS:0x00100430
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: Faulty UTCL2 client ID: IA (0x2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: MORE_FAULTS: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: WALKER_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: PERMISSION_FAULTS: 0x3
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: MAPPING_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: RW: 0x0
나는 mesa/전용 드라이버 간 전환, mesa radeon-vulkan 및 amdvlk 간 전환, Chrome이 사용하는 세션 유형(X11/Wayland) 변경 또는 전체 DE의 세션 유형 변경을 시도했습니다(KDE Plasma를 사용하지만 기반 빠른 검색에서 GNOME 사용자는 동일한 문제를 겪고 있는 것 같습니다. 또는 온라인 어디에서나 제안된 커널 명령줄 인수를 추가합니다(안심하세요. 적용하기 전에 문서를 참조하여 해당 내용이 무엇을 의미하는지 이해했습니다) amdgpu.runpm=0
. 그들 중 하나 또는 그 조합. 특히 시스템이 부팅되지 않는 원인이 되므로 이는 제가 원하는 것이 아닌 것 같습니다.amdgpu.dpm=0
amdgpu.vm_update_mode=3
amdgpu.dpm=0
외부 모니터(4K2K@60Hz)와 함께 chrome/chromium(vaapi 하드웨어 가속 및 X11/Wayland 세션 포함 또는 제외)을 사용할 때1+ 풀 HD@60Hz1) USB-C DP Alt를 통해 연결한 다음 도킹 스테이션을 통해 HDMI로 변환합니다.
다행스럽게도 커널을 다운그레이드하면 시스템이 안정되는 것 6.4.12-arch1
같았 6.4.12-zen1
기 때문에 새 커널이 문제라고 의심하고 같은 문제가 있는 다른 배포 커널이나 kernel.org의 기본 커널이 있는지 여기에 물어보기로 결정했습니다. 시스템을 사용 가능하게 만들기 위해 일시적으로 linux-lts
Arch 커널 패키지( 특히 커널)를 사용하고 있습니다. 6.1.52-1-lts
지금까지는 안정적이지만 초기 어댑터가 되어 거의 최신 커널 버전을 계속 사용하고 싶습니다. XD
어떤 아이디어, 문제에 대한 해결책 또는 제안도 환영합니다. 하지만 Arch 포럼의 도움을 받아 이 문제에 기여할 수 있는 커밋을 식별하려고 노력하겠습니다.
시간을 내어 이 질문을 읽어주셔서 감사합니다. 그렇다면 답장을 보내주세요!
답변1
있는 것 같다보고서amdgpu 모듈 매개변수를 설정하면 amdgpu.mcbp=0
6.5 커널부터 이 모듈을 사용하는 사용자의 문제를 해결할 수 있습니다.
또한 버전의 커널 문서에 따르면 amdgpu.mcbp
매개변수의 기본값이 커널 버전 6.5에서 (비활성화) 0
에서 (자동)으로 변경되었음을 확인했습니다.-1
6.4그리고6.5(페이지의 "mcbp" 항목 참조)
"중간 명령 버퍼 선점"을 전환하는 매개 변수로 설명되어 있으므로 권한 관련 그래픽 VM 페이지 오류를 언급하는 로그를 고려하면 이것이 내가 겪고 있는 문제의 원인이라고 가정합니다.