AMD dGPU를 추가한 후 일시 중지/재개가 작동하지 않음

AMD dGPU를 추가한 후 일시 중지/재개가 작동하지 않음

설정에 개별 GPU(AMD RX 6900XT)를 추가했습니다. 일시 중지/다시 시작이 더 이상 작동하지 않는 것을 제외하면 훌륭하게 작동합니다. 이전에는 Intel iGPU에서 실행 중이었고 잘 작동했기 때문에 작업 중인 GPU에 문제가 있는 것 같습니다.

lspci -k보여주다:

01:00.0 PCI bridge: Advanced Micro Devices, Inc. [AMD/ATI] Navi 10 XL Upstream Port of PCI Express Switch (rev c0)
    Kernel driver in use: pcieport
02:00.0 PCI bridge: Advanced Micro Devices, Inc. [AMD/ATI] Navi 10 XL Downstream Port of PCI Express Switch
    Kernel driver in use: pcieport
03:00.0 VGA compatible controller: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21 [Radeon RX 6800/6800 XT / 6900 XT] (rev c0)
    Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Radeon RX 6900 XT
    Kernel driver in use: amdgpu
    Kernel modules: amdgpu
03:00.1 Audio device: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21 HDMI Audio [Radeon RX 6800/6800 XT / 6900 XT]
    Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21 HDMI Audio [Radeon RX 6800/6800 XT / 6900 XT]
    Kernel driver in use: snd_hda_intel
    Kernel modules: snd_hda_intel
03:00.2 USB controller: Advanced Micro Devices, Inc. [AMD/ATI] Device 73a6
    Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Device 73a6
    Kernel driver in use: xhci_hcd
    Kernel modules: xhci_pci
03:00.3 Serial bus controller: Advanced Micro Devices, Inc. [AMD/ATI] Navi 21 USB
    Subsystem: Advanced Micro Devices, Inc. [AMD/ATI] Device 0408
    Kernel driver in use: i2c-designware-pci

lsmod | grep -ie 'amd'보여주다:

amdgpu               8601600  18
drm_ttm_helper         16384  1 amdgpu
ttm                    86016  3 amdgpu,drm_ttm_helper,i915
gpu_sched              53248  1 amdgpu

xrandr --listproviders보여주다:

Providers: number : 2
Provider 0: id: 0x58 cap: 0xf, Source Output, Sink Output, Source Offload, Sink Offload crtcs: 6 outputs: 4 associated providers: 1 name:AMD Radeon RX 6900 XT @ pci:0000:03:00.0
Provider 1: id: 0x6f7 cap: 0xf, Source Output, Sink Output, Source Offload, Sink Offload crtcs: 4 outputs: 3 associated providers: 1 name:modesetting

내가 한 일들:

  • Xorg.conf를 생성했습니다.X -configure
  • amdgpu커널 모듈에 추가 (in mkinitcpio.conf)
  • ASPM 활성화, iGPU 비활성화와 같은 다양한 BIOS 설정을 시도했습니다.
  • 설치된 xf86-video-amdgpu패키지(명백한 meta패키지 및 Vulkan 패키지 제외)
  • iGPU가 여전히 영향을 받는 경우 블랙리스트에 등록된 모듈 i915( blacklist.conf가운데 )/etc/modprobe.d
  • 블랙리스트에 등록됨 ucsi_ccg(표시 오류)
  • 설치된 acpid패키지(로그에 일부 경고가 표시됨)
  • amdgpu.dc=0,,,,,,,커널 매개변수를amdgpu.reset_method=2 시도했습니다 .amdgpu.runpm=0nomodesetpcie_aspm=forceacpi_osi=Linuxacpi_osi=Windows
  • 커널을 5.17.1에서 5.16.6, 5.16.3, 5.15.13으로 다운그레이드
  • 실험 mesa-git패키지(및 관련 패키지)를 사용해 보았습니다.
  • 메사 재설치
  • 다시 설치linux-headers
  • 시도된 솔루션https://gitlab.freedesktop.org/drm/amd/-/issues/1797, 비슷한 문제인 것 같습니다.

저는 GNOME/Xorg와 함께 Arch Linux(5.17.1)를 사용하고 있습니다. 하드웨어 사양: Intel 12세대 12700, GIGABYTE AERO G 마더보드 사용, 32GB DDR5 G.SKILL 메모리 장착. DisplayPort 케이블을 사용하여 모니터(Alienware AW3420DW)를 연결했습니다.

마지막 정지 시도의 로그(로그)를 보면 기록되는 모든 정지 정보는 다음과 같습니다.

apr 02 11:43:43 arch NetworkManager[764]: <info>  [1648892623.2585] manager: sleep: sleep requested (sleeping: no  enabled: yes)
apr 02 11:43:43 arch NetworkManager[764]: <info>  [1648892623.2589] device (wlo1): state change: unavailable -> unmanaged (reason 'sleeping', sys-iface-state: 'managed')
apr 02 11:43:43 arch NetworkManager[764]: <info>  [1648892623.2602] device (wlo1): set-hw-addr: reset MAC address to F0:9E:4A:8A:9B:02 (unmanage)
apr 02 11:43:43 arch NetworkManager[764]: <info>  [1648892623.2623] manager: NetworkManager state is now ASLEEP
apr 02 11:43:43 arch gnome-shell[1091]: Timelines with detached actors are not supported
apr 02 11:43:47 arch systemd[1]: Reached target Sleep.
apr 02 11:43:47 arch systemd[1]: Starting System Suspend...

시스템이 정상적으로 중단된 것 같습니다. 키를 누르면 시스템이 다시 켜지지만(전원 LED가 켜지고 팬이 회전함) 화면은 계속 검은색으로 표시됩니다. 흥미롭게도 복구 시도에 대한 로그는 없습니다. 다른 컴퓨터에서 NVIDIA 카드의 일시 중지/재개 문제를 처리했지만 항상 시작되는 이력서에 대한 일부 정보를 기록했습니다(그런 다음 일반적으로 모드 설정 문제로 인해 GPU를 찾지 못했습니다).

dmesgXorg 로그 도 살펴봤지만 흥미로운 내용은 없었습니다. 적어도 명백한 오류나 경고는 없습니다.

지금은 아이디어가 거의 없습니다. 따라서 누군가가 몇 가지 팁을 공유하거나 제가 더 자세히 살펴볼 수 있는 내용을 알려줄 수 있기를 바랍니다.

답변1

제가 해결한 것 같습니다.

모든 테스트, 커널 조정, 소스에서 커널 구축 및 솔루션을 찾지 못한 채 몇 시간 동안 듀스를 마친 후에는 그 동안 BIOS 업데이트가 있을 수 있다고 생각했습니다. 그렇습니다: Gigabyte는 "F5" 버전보다 높은 Z690 AERO G 마더보드의 "F6" 버전을 출시했습니다.

새로운 BIOS 버전은 이 문제를 즉시 해결하여 현재 5.19 커널에서 작업 일시 중지/재개에 버그가 없도록 만듭니다!

불행하게도 BIOS 코드는 독점적이기 때문에 업데이트에 대한 릴리스 노트는 매우 간단하고 다소 모호합니다. 그들은 새로운 CPU에 대한 추가 지원과 DDR5에 대한 더 나은 지원은 물론 "성능 및 안정성 업데이트"를 나열합니다. 내 문제와 직접적인 관련은 없지만 BIOS 코드에 절전/재개 신호를 올바르게 해석하지 못하게 하는 특정 문제가 있을 수 있습니다(로그에 따르면 i2c-designware-pci5.12 기준 BIOS 코드에 문제가 발생할 수 있음). 프로세스).

비슷한 문제가 발생하고 BIOS 업데이트로 문제가 해결되지 않으면 여기를 참조하여 더 많은 아이디어와 문제 해결 방법을 알아보세요.https://gitlab.freedesktop.org/drm/amd/-/issues/1963

관련 정보