커널 6.5.2로 인해 재시도 없음 페이지 오류로 인해 amdgpu가 충돌하는 것 같습니다.

커널 6.5.2로 인해 재시도 없음 페이지 오류로 인해 amdgpu가 충돌하는 것 같습니다.

시작하기 전에: 유사한 문제에 대해 Arch Linux 포럼의 스레드에 응답했습니다(https://bbs.archlinux.org/viewtopic.php?id=284076), 왜냐하면 저는 Arch에 있기 때문이죠. 더 많은 도움을 받고 다른 배포판을 사용하는 사람도 같은 문제가 있는지 확인하기 위해 여기에 요청하고 있습니다.

커널을 Arch 저장소의 현재 최신 버전(즉, 6.5.2-arch1이전에 사용했던 버전) 으로 업그레이드한 후 6.5.2-zen1, 가동 시간 약 5~20분 이내에 발생하여 시스템을 거의 사용할 수 없게 만드는 무작위 GPU 충돌이 발생했습니다.

시스템 로그는 다음과 같이 표시됩니다.

Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: [gfxhub0] no-retry page fault (src_id:0 ring:24 vmid:1 pasid:32814, for process chrome pid 4073 thread chrome:cs0 pid 4101)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:   in page starting at address 0x0000e38dbdd3b000 from IH client 0x1b (UTCL2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu: VM_L2_PROTECTION_FAULT_STATUS:0x00100430
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          Faulty UTCL2 client ID: IA (0x2)
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          MORE_FAULTS: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          WALKER_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          PERMISSION_FAULTS: 0x3
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          MAPPING_ERROR: 0x0
Sep 11 20:00:46 yoohyeon.dc.sidlibrary.org kernel: amdgpu 0000:07:00.0: amdgpu:          RW: 0x0

나는 mesa/전용 드라이버 간 전환, mesa radeon-vulkan 및 amdvlk 간 전환, Chrome이 사용하는 세션 유형(X11/Wayland) 변경 또는 전체 DE의 세션 유형 변경을 시도했습니다(KDE Plasma를 사용하지만 기반 빠른 검색에서 GNOME 사용자는 동일한 문제를 겪고 있는 것 같습니다. 또는 온라인 어디에서나 제안된 커널 명령줄 인수를 추가합니다(안심하세요. 적용하기 전에 문서를 참조하여 해당 내용이 무엇을 의미하는지 이해했습니다) amdgpu.runpm=0. 그들 중 하나 또는 그 조합. 특히 시스템이 부팅되지 않는 원인이 되므로 이는 제가 원하는 것이 아닌 것 같습니다.amdgpu.dpm=0amdgpu.vm_update_mode=3amdgpu.dpm=0

외부 모니터(4K2K@60Hz)와 함께 chrome/chromium(vaapi 하드웨어 가속 및 X11/Wayland 세션 포함 또는 제외)을 사용할 때1+ 풀 HD@60Hz1) USB-C DP Alt를 통해 연결한 다음 도킹 스테이션을 통해 HDMI로 변환합니다.

다행스럽게도 커널을 다운그레이드하면 시스템이 안정되는 것 6.4.12-arch1같았 6.4.12-zen1기 때문에 새 커널이 문제라고 의심하고 같은 문제가 있는 다른 배포 커널이나 kernel.org의 기본 커널이 있는지 여기에 물어보기로 결정했습니다. 시스템을 사용 가능하게 만들기 위해 일시적으로 linux-ltsArch 커널 패키지( 특히 커널)를 사용하고 있습니다. 6.1.52-1-lts지금까지는 안정적이지만 초기 어댑터가 되어 거의 최신 커널 버전을 계속 사용하고 싶습니다. XD

어떤 아이디어, 문제에 대한 해결책 또는 제안도 환영합니다. 하지만 Arch 포럼의 도움을 받아 이 문제에 기여할 수 있는 커밋을 식별하려고 노력하겠습니다.

시간을 내어 이 질문을 읽어주셔서 감사합니다. 그렇다면 답장을 보내주세요!

답변1

있는 것 같다보고서amdgpu 모듈 매개변수를 설정하면 amdgpu.mcbp=06.5 커널부터 이 모듈을 사용하는 사용자의 문제를 해결할 수 있습니다.

또한 버전의 커널 문서에 따르면 amdgpu.mcbp매개변수의 기본값이 커널 버전 6.5에서 (비활성화) 0에서 (자동)으로 변경되었음을 확인했습니다.-16.4그리고6.5(페이지의 "mcbp" 항목 참조)

"중간 명령 버퍼 선점"을 전환하는 매개 변수로 설명되어 있으므로 권한 관련 그래픽 VM 페이지 오류를 언급하는 로그를 고려하면 이것이 내가 겪고 있는 문제의 원인이라고 가정합니다.

관련 정보