새 노트북을 구입하고 (부팅 가능한 USB를 통해) Ubuntu 20.04를 설치하려고 했지만 시스템을 사용할 수 없게 만드는 문제가 계속해서 발생했습니다.
- 모든 것이 정지되고(마우스 커서 포함, ctrl+alt+f1 조합이 작동하지 않음) 약 10초 후에 다시 시작됩니다.
- 노트북이 갑자기 다시 시작됩니다.
- 다양한 것들이 계속 충돌합니다(gnome-terminal-server, gnome-session 등). 이러한 문제는 무작위로 발생하며 처음 두 문제는 운영 체제 설치 중에도 발생합니다. 때로는 시스템 시작 직후, 때로는 몇 분 후에 발생합니다.
나는 며칠 동안 이 문제에 대해 다른 각도에서 접근하려고 노력했지만 성공하지 못했습니다. 어떤 방법이 더 탐구할 가치가 있고 방법에 대한 조언을 주시면 정말 감사하겠습니다. 이것이 하드웨어 문제일 수 있다면 어떻게든 증명할 수 있는 방법이 있으면 좋을 것 같습니다.
사실:
- 일부 이벤트는 시스템 로그의 "하드웨어 오류" 항목과 관련된 것으로 보입니다(그러나 문제를 유발하지 않는 것으로 보이는 매우 유사한 항목을 발견했습니다).
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H kernel: [ 629.400829] mce: [Hardware Error]: Machine check events logged
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: rasdaemon: register inserted at db
Oct 9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: <...>-2740 [004] 0.000063: mce_record: 2020-10-09 14:38:37 +0200 bank=2, status= c000014000010019, Generic TLB Level-1 Error, mci=Error_overflow Corrected_error, mca=Generic TLB Level-1 Error, cpu_type= Intel generic architectural MCA, cpu= 4, socketid= 0, mcgstatus=0, mcgcap= c0c, apicid= 8
- 이것이 하드웨어 문제인지 확인하기 위해 랩톱에 Windows 10 Home을 설치했습니다. 설치는 성공적이었고 OS는 업데이트를 다운로드하고 설치하는 데 몇 시간이 걸렸으며 전반적으로 좋아 보입니다. 압박 속에서도 제대로 작동하는지 확인하기 위해 저는 The Witcher 3의 약 30분을 포함해 몇 시간 동안 Windows를 아무런 문제 없이 사용했습니다.
문제를 진단/해결하려는 시도 중 일부는 다음과 같습니다.
면책 조항: Linux에 대한 나의 이해는 제한되어 있으며 시도 중에 일부 튜토리얼/가이드를 따랐지만 잘못된 결론을 이끌어내는 어리석은 실수를 저질렀을 수도 있습니다.
- deb 파일을 다운로드하고 dpkg -i linux*.deb를 실행한 후 부팅 메뉴에서 다른 커널을 선택하여 다른 커널(5.8.14 및 5.9-rc8)을 설치해 보았으나 도움이 되지 않았습니다.
- Manjaro Gnome(커널 5.6) 설치를 시도했는데 성공하지 못했습니다. (설치 도중 멈춰서 부팅이 안 되서 포기했습니다.)
- 독점 GPU 드라이버 없이 Ubuntu를 설치하려고 시도한 다음 Nvidia "장기" 드라이버(v450) 또는 "단기" 드라이버(v455)를 수동으로 설치하려고 할 때 몇 가지 실험을 수행했습니다. 도움이 되지 않는 것 같아요
- Ubuntu 20.10을 사용해 보았지만 똑같은 문제가 발생했습니다.
- 나는 Arch-Linux의 최신 조합을 포함하여 Linux 커널과 NVidia 드라이버의 다양한 조합을 시도했습니다.
- 일부 리소스에서는 전원 공급 장치와 관련된 문제를 제기합니다. 제가 생각한 유일한 것은 DC 어댑터를 연결하지 않고 노트북을 사용하려고 시도했지만 여전히 작동이 멈추거나 다시 시작되는 현상이 발생했습니다.
통나무
inxi -F && dmesg | grep -i error
이는 설치 중에 "전용 드라이버 설치"가 활성화된 최소 20.04의 출력입니다.
System: Host: test-Lenovo-Legion-5-15IMH05H Kernel: 5.4.0-48-generic x86_64 bits: 64 Desktop: Gnome 3.36.4
Distro: Ubuntu 20.04.1 LTS (Focal Fossa)
Machine: Type: Laptop System: LENOVO product: 81Y6 v: Lenovo Legion 5 15IMH05H serial: <superuser/root required>
Mobo: LENOVO model: LNVNB161216 v: NO DPK serial: <superuser/root required> UEFI: LENOVO v: EFCN32WW
date: 05/11/2020
Battery: ID-1: BAT0 charge: 61.4 Wh condition: 63.3/60.0 Wh (105%)
CPU: Topology: 6-Core model: Intel Core i7-10750H bits: 64 type: MT MCP L2 cache: 12.0 MiB
Speed: 800 MHz min/max: 800/5000 MHz Core speeds (MHz): 1: 800 2: 800 3: 800 4: 800 5: 800 6: 800 7: 800 8: 800
9: 800 10: 800 11: 800 12: 800
Graphics: Device-1: Intel UHD Graphics driver: i915 v: kernel
Device-2: NVIDIA TU106 [GeForce RTX 2060] driver: nvidia v: 450.66
Display: x11 server: X.Org 1.20.8 driver: modesetting,nvidia unloaded: fbdev,nouveau,vesa
resolution: 1920x1080~144Hz
OpenGL: renderer: GeForce RTX 2060/PCIe/SSE2 v: 4.6.0 NVIDIA 450.66
Audio: Device-1: Intel Comet Lake PCH cAVS driver: snd_hda_intel
Device-2: NVIDIA TU106 High Definition Audio driver: snd_hda_intel
Sound Server: ALSA v: k5.4.0-48-generic
Network: Device-1: Intel Wi-Fi 6 AX201 driver: iwlwifi
IF: wlp0s20f3 state: up mac: <REDACTED>
Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169
IF: enp8s0 state: down mac: <REDACTED>
Drives: Local Storage: total: 476.94 GiB used: 8.08 GiB (1.7%)
ID-1: /dev/nvme0n1 vendor: Western Digital model: PC SN730 SDBQNTY-512G-1001 size: 476.94 GiB
ID-2: /dev/nvme1n1 vendor: SK Hynix model: HFM512GDHTNI-87A0B size: 476.94 GiB
Partition: ID-1: / size: 468.00 GiB used: 8.01 GiB (1.7%) fs: ext4 dev: /dev/nvme0n1p2
Sensors: System Temperatures: cpu: 41.0 C mobo: N/A gpu: nvidia temp: 39 C
Fan Speeds (RPM): N/A
Info: Processes: 322 Uptime: 2m Memory: 31.23 GiB used: 1.32 GiB (4.2%) Shell: bash inxi: 3.0.38
[ 0.012647] [Firmware Bug]: TSC ADJUST differs within socket(s), fixing all errors
[ 0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C2.TPD0], AE_NOT_FOUND (20190816/dswload2-162)
[ 0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[ 0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C3.TPL1], AE_NOT_FOUND (20190816/dswload2-162)
[ 0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[ 0.925916] RAS: Correctable Errors collector initialized.
[ 6.754956] usb 1-6: device descriptor read/64, error -71
[ 8.093725] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
[ 8.399155] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-50.ucode failed with error -2
[ 8.399445] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-49.ucode failed with error -2
[ 9.295155] nvidia-gpu 0000:01:00.3: i2c timeout error e0000000
[ 9.295162] ucsi_ccg: probe of 0-0008 failed with error -110
미리 감사드립니다
답변1
TL;DR 하드웨어 문제일 가능성이 높다는 결론에 도달하여 노트북을 반품하기로 결정했습니다.
전체 내용:
- 몇 가지 조사 결과, Intel을 사용할 때 하루나 이틀 동안 문제가 발생하지 않기 때문에 문제가 Nvidia GPU와 관련이 있다는 인상을 받았습니다.
- 친구가 나에게 제안했다.BIOS 업데이트;이 작업을 수행하고 NVidia 드라이버를 업데이트한 후 이상한 재부팅과 몇 번의 Gnome 충돌을 제외하고 며칠 동안 모든 것이 잘 작동했습니다.
- 어느 시점에서 시스템 업데이트를 설치하도록 허용했는데 NVidia와 Intel GPU 모두에서 문제가 더 자주 발생하기 시작했습니다. Nvidia 드라이버가 450.66.XX에서 450.80.02로 변경된 것으로 기록되어 있지만 그게 맞는지 확실하지 않습니다. 문제와 관련된
- MCE 오류는 대부분 재부팅과 관련이 있고 자주 발생하며 항상 CPU 4에 있다는 것을 알았습니다. 이것이 노트북을 사용할 수 없게 만드는 원인일 가능성이 가장 높다고 생각하고 반환 프로세스를 시작했습니다.
답변2
혼합 그래픽 모드(amdgpu + nvidia 550 드라이버)에서 Linux를 실행하는 Legion Pro 5 16ARX8 82WM(R9000P)에 정지 문제가 있습니다.
하나 찾은 것 같아요해결책을 위한.
이것엔비디아 GPU다양한 상태에 있을 수 있음 -D3 추위,D0,D3 핫.
나는 무작위로 내가 계속하면엔비디아 GPU존재하다D0상태(그냥 열어엔비디아 설정패널에전원 관리자탭) - 정지/말더듬 현상이 사라졌습니다.
하지만 내가 허락한다면엔비디아 GPU절전 모드로 전환(D3 추위상태) - 2분마다 애플리케이션을 정지합니다.
그리고시스템 로그스팸을 보내는 사람:
...
Feb 17 15:55:17 smarttop kernel: [ 9145.605086] nvidia 0000:01:00.0: Enabling HDA controller
Feb 17 15:57:17 smarttop kernel: [ 9265.612997] nvidia 0000:01:00.0: Enabling HDA controller
Feb 17 15:58:58 smarttop kernel: [ 9366.357103] nvidia 0000:01:00.0: Enabling HDA controller
Feb 18 00:30:06 smarttop kernel: [37914.905083] nvidia 0000:01:00.0: Enabling HDA controller
...
따라서 정지 현상은 NVIDIA HDA 컨트롤러와 관련된 것으로 보입니다. 또한
만일을 대비해 rmmod tpm
GRUB 메뉴 항목을 추가했습니다 .