Lenovo Legion 5i RTX2060이 자주 정지되고 다시 시작됩니다.

Lenovo Legion 5i RTX2060이 자주 정지되고 다시 시작됩니다.

새 노트북을 구입하고 (부팅 가능한 USB를 통해) Ubuntu 20.04를 설치하려고 했지만 시스템을 사용할 수 없게 만드는 문제가 계속해서 발생했습니다.

  • 모든 것이 정지되고(마우스 커서 포함, ctrl+alt+f1 조합이 작동하지 않음) 약 10초 후에 다시 시작됩니다.
  • 노트북이 갑자기 다시 시작됩니다.
  • 다양한 것들이 계속 충돌합니다(gnome-terminal-server, gnome-session 등). 이러한 문제는 무작위로 발생하며 처음 두 문제는 운영 체제 설치 중에도 발생합니다. 때로는 시스템 시작 직후, 때로는 몇 분 후에 발생합니다.

나는 며칠 동안 이 문제에 대해 다른 각도에서 접근하려고 노력했지만 성공하지 못했습니다. 어떤 방법이 더 탐구할 가치가 있고 방법에 대한 조언을 주시면 정말 감사하겠습니다. 이것이 하드웨어 문제일 수 있다면 어떻게든 증명할 수 있는 방법이 있으면 좋을 것 같습니다.

사실:

  1. 일부 이벤트는 시스템 로그의 "하드웨어 오류" 항목과 관련된 것으로 보입니다(그러나 문제를 유발하지 않는 것으로 보이는 매우 유사한 항목을 발견했습니다).
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H kernel: [  629.400829] mce: [Hardware Error]: Machine check events logged
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: rasdaemon: register inserted at db
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]:            <...>-2740  [004]     0.000063: mce_record:           2020-10-09 14:38:37 +0200 bank=2, status= c000014000010019, Generic TLB Level-1 Error, mci=Error_overflow Corrected_error, mca=Generic TLB Level-1 Error, cpu_type= Intel generic architectural MCA, cpu= 4, socketid= 0, mcgstatus=0, mcgcap= c0c, apicid= 8
  1. 이것이 하드웨어 문제인지 확인하기 위해 랩톱에 Windows 10 Home을 설치했습니다. 설치는 성공적이었고 OS는 업데이트를 다운로드하고 설치하는 데 몇 시간이 걸렸으며 전반적으로 좋아 보입니다. 압박 속에서도 제대로 작동하는지 확인하기 위해 저는 The Witcher 3의 약 30분을 포함해 몇 시간 동안 Windows를 아무런 문제 없이 사용했습니다.

문제를 진단/해결하려는 시도 중 일부는 다음과 같습니다.

면책 조항: Linux에 대한 나의 이해는 제한되어 있으며 시도 중에 일부 튜토리얼/가이드를 따랐지만 잘못된 결론을 이끌어내는 어리석은 실수를 저질렀을 수도 있습니다.

  1. deb 파일을 다운로드하고 dpkg -i linux*.deb를 실행한 후 부팅 메뉴에서 다른 커널을 선택하여 다른 커널(5.8.14 및 5.9-rc8)을 설치해 보았으나 도움이 되지 않았습니다.
  2. Manjaro Gnome(커널 5.6) 설치를 시도했는데 성공하지 못했습니다. (설치 도중 멈춰서 부팅이 안 되서 포기했습니다.)
  3. 독점 GPU 드라이버 없이 Ubuntu를 설치하려고 시도한 다음 Nvidia "장기" 드라이버(v450) 또는 "단기" 드라이버(v455)를 수동으로 설치하려고 할 때 몇 가지 실험을 수행했습니다. 도움이 되지 않는 것 같아요
  4. Ubuntu 20.10을 사용해 보았지만 똑같은 문제가 발생했습니다.
  5. 나는 Arch-Linux의 최신 조합을 포함하여 Linux 커널과 NVidia 드라이버의 다양한 조합을 시도했습니다.
  6. 일부 리소스에서는 전원 공급 장치와 관련된 문제를 제기합니다. 제가 생각한 유일한 것은 DC 어댑터를 연결하지 않고 노트북을 사용하려고 시도했지만 여전히 작동이 멈추거나 다시 시작되는 현상이 발생했습니다.

통나무

inxi -F && dmesg | grep -i error이는 설치 중에 "전용 드라이버 설치"가 활성화된 최소 20.04의 출력입니다.

System:    Host: test-Lenovo-Legion-5-15IMH05H Kernel: 5.4.0-48-generic x86_64 bits: 64 Desktop: Gnome 3.36.4 
           Distro: Ubuntu 20.04.1 LTS (Focal Fossa) 
Machine:   Type: Laptop System: LENOVO product: 81Y6 v: Lenovo Legion 5 15IMH05H serial: <superuser/root required> 
           Mobo: LENOVO model: LNVNB161216 v: NO DPK serial: <superuser/root required> UEFI: LENOVO v: EFCN32WW 
           date: 05/11/2020 

Battery:   ID-1: BAT0 charge: 61.4 Wh condition: 63.3/60.0 Wh (105%) 
CPU:       Topology: 6-Core model: Intel Core i7-10750H bits: 64 type: MT MCP L2 cache: 12.0 MiB 
           Speed: 800 MHz min/max: 800/5000 MHz Core speeds (MHz): 1: 800 2: 800 3: 800 4: 800 5: 800 6: 800 7: 800 8: 800 
           9: 800 10: 800 11: 800 12: 800 
Graphics:  Device-1: Intel UHD Graphics driver: i915 v: kernel 
           Device-2: NVIDIA TU106 [GeForce RTX 2060] driver: nvidia v: 450.66 
           Display: x11 server: X.Org 1.20.8 driver: modesetting,nvidia unloaded: fbdev,nouveau,vesa 
           resolution: 1920x1080~144Hz 
           OpenGL: renderer: GeForce RTX 2060/PCIe/SSE2 v: 4.6.0 NVIDIA 450.66 
Audio:     Device-1: Intel Comet Lake PCH cAVS driver: snd_hda_intel 
           Device-2: NVIDIA TU106 High Definition Audio driver: snd_hda_intel 
           Sound Server: ALSA v: k5.4.0-48-generic 
Network:   Device-1: Intel Wi-Fi 6 AX201 driver: iwlwifi 
           IF: wlp0s20f3 state: up mac: <REDACTED> 
           Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169 
           IF: enp8s0 state: down mac: <REDACTED> 
Drives:    Local Storage: total: 476.94 GiB used: 8.08 GiB (1.7%) 
           ID-1: /dev/nvme0n1 vendor: Western Digital model: PC SN730 SDBQNTY-512G-1001 size: 476.94 GiB 
           ID-2: /dev/nvme1n1 vendor: SK Hynix model: HFM512GDHTNI-87A0B size: 476.94 GiB 
Partition: ID-1: / size: 468.00 GiB used: 8.01 GiB (1.7%) fs: ext4 dev: /dev/nvme0n1p2 
Sensors:   System Temperatures: cpu: 41.0 C mobo: N/A gpu: nvidia temp: 39 C 
           Fan Speeds (RPM): N/A 
Info:      Processes: 322 Uptime: 2m Memory: 31.23 GiB used: 1.32 GiB (4.2%) Shell: bash inxi: 3.0.38 
[    0.012647] [Firmware Bug]: TSC ADJUST differs within socket(s), fixing all errors
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C2.TPD0], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C3.TPL1], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.925916] RAS: Correctable Errors collector initialized.
[    6.754956] usb 1-6: device descriptor read/64, error -71
[    8.093725] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
[    8.399155] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-50.ucode failed with error -2
[    8.399445] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-49.ucode failed with error -2
[    9.295155] nvidia-gpu 0000:01:00.3: i2c timeout error e0000000
[    9.295162] ucsi_ccg: probe of 0-0008 failed with error -110

미리 감사드립니다

답변1

TL;DR 하드웨어 문제일 가능성이 높다는 결론에 도달하여 노트북을 반품하기로 결정했습니다.

전체 내용:

  • 몇 가지 조사 결과, Intel을 사용할 때 하루나 이틀 동안 문제가 발생하지 않기 때문에 문제가 Nvidia GPU와 관련이 있다는 인상을 받았습니다.
  • 친구가 나에게 제안했다.BIOS 업데이트;이 작업을 수행하고 NVidia 드라이버를 업데이트한 후 이상한 재부팅과 몇 번의 Gnome 충돌을 제외하고 며칠 동안 모든 것이 잘 작동했습니다.
  • 어느 시점에서 시스템 업데이트를 설치하도록 허용했는데 NVidia와 Intel GPU 모두에서 문제가 더 자주 발생하기 시작했습니다. Nvidia 드라이버가 450.66.XX에서 450.80.02로 변경된 것으로 기록되어 있지만 그게 맞는지 확실하지 않습니다. 문제와 관련된
  • MCE 오류는 대부분 재부팅과 관련이 있고 자주 발생하며 항상 CPU 4에 있다는 것을 알았습니다. 이것이 노트북을 사용할 수 없게 만드는 원인일 가능성이 가장 높다고 생각하고 반환 프로세스를 시작했습니다.

답변2

혼합 그래픽 모드(amdgpu + nvidia 550 드라이버)에서 Linux를 실행하는 Legion Pro 5 16ARX8 82WM(R9000P)에 정지 문제가 있습니다.
하나 찾은 것 같아요해결책을 위한.
이것엔비디아 GPU다양한 상태에 있을 수 있음 -D3 추위,D0,D3 핫.
나는 무작위로 내가 계속하면엔비디아 GPU존재하다D0상태(그냥 열어엔비디아 설정패널에전원 관리자탭) - 정지/말더듬 현상이 사라졌습니다.

하지만 내가 허락한다면엔비디아 GPU절전 모드로 전환(D3 추위상태) - 2분마다 애플리케이션을 정지합니다.
그리고시스템 로그스팸을 보내는 사람:

...
Feb 17 15:55:17 smarttop kernel: [ 9145.605086] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 17 15:57:17 smarttop kernel: [ 9265.612997] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 17 15:58:58 smarttop kernel: [ 9366.357103] nvidia 0000:01:00.0: Enabling HDA controller  
Feb 18 00:30:06 smarttop kernel: [37914.905083] nvidia 0000:01:00.0: Enabling HDA controller
... 

따라서 정지 현상은 NVIDIA HDA 컨트롤러와 관련된 것으로 보입니다. 또한
만일을 대비해 rmmod tpmGRUB 메뉴 항목을 추가했습니다 .

관련 정보