Lenovo x1 Extreme gen 1의 ext4-fs 및 syslog 오류가 새로 설치한 후에도 지속됩니다.

Lenovo x1 Extreme gen 1의 ext4-fs 및 syslog 오류가 새로 설치한 후에도 지속됩니다.

나는 한동안(2-3년) lenovo x1 Extreme gen 1(현재 Ubuntu 20.04 기반의 최신 버전을 사용하고 있음)에서 팝 OS를 사용해 왔지만 최근에 다음과 관련될 수 있는 하드웨어 문제(노트북)가 발생했습니다. SSD는 새로 설치한 후에도 지속되는 ext4-fs 및 systemd-journald 오류로 인해 무작위로 충돌합니다. 아래에 몇 가지 스크린샷을 첨부했지만, 아래 로그 디렉터리에서 찾을 수 있는 오류 로그도 모두 넣을 것입니다.

여기에 이미지 설명을 입력하세요.

여기에 이미지 설명을 입력하세요.

진단:

fdisk, fsck:

pop-os@pop-os:~$ sudo fdisk -l
Disk /dev/loop0: 2.24 GiB, 2400944128 bytes, 4689344 sectors
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes

Disk /dev/nvme0n1: 953.89 GiB, 1024209543168 bytes, 2000409264 sectors
Disk model: SAMSUNG MZVLB1T0HALR-000L7        
Units: sectors of 1 * 512 = 512 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disklabel type: gpt
Disk identifier: 5FCEDA12-D1BA-4EEF-B174-C7F4C4F7ACFC


Device              Start        End    Sectors   Size Type

/dev/nvme0n1p1       4096    1023998    1019903   498M EFI System
/dev/nvme0n1p2    1024000    9412606    8388607     4G Microsoft basic data
/dev/nvme0n1p3    9412608 1992016558 1982603951 945.4G Linux filesystem
/dev/nvme0n1p4 1992016560 2000405166    8388607     4G Linux swap

(참고: Microsoft 기본 데이터는 Windows의 남은 복구 파티션입니다)

sudo fsck -CvMf /dev/nvme0n1p3
fsck from util-linux 2.34
e2fsck 1.45.5 (07-Jan-2020)

Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure                                     
Pass 3: Checking directory connectivity                                   
Pass 4: Checking reference counts
Pass 5: Checking group summary information                               
                                                                         

     366095 inodes used (0.59%, out of 61964288)
       2849 non-contiguous files (0.8%)
        412 non-contiguous directories (0.1%)
            # of inodes with ind/dind/tind blocks: 0/0/0
            Extent depth histogram: 326954/107
   11214214 blocks used (4.53%, out of 247825493)
          0 bad blocks
          2 large files

     287132 regular files
      36849 directories
          7 character device files
          0 block device files
          0 fifos
      91242 links
      42092 symbolic links (39013 fast symbolic links)
          6 sockets
------------
     457328 files

스마트 테스트:

=== START OF INFORMATION SECTION ===

Model Number:                       SAMSUNG MZVLB1T0HALR-000L7
Firmware Version:                   5L2QEXA7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization:            47,027,638,272 [47.0 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 8881b2cb9e
Local Time is:                      Mon Aug  3 16:34:10 2020 UTC
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x001f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     81 Celsius
Critical Comp. Temp. Threshold:     82 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
0 +     7.02W       -        -    0  0  0  0        0       0
1 +     6.30W       -        -    1  1  1  1        0       0
2 +     3.50W       -        -    2  2  2  2        0       0
3 -   0.0760W       -        -    3  3  3  3      210    1200
4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
0 +     512       0         0

=== START OF SMART DATA SECTION ===

SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        39 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    1%
Data Units Read:                    22,730,197 [11.6 TB]
Data Units Written:                 39,001,161 [19.9 TB]
Host Read Commands:                 280,072,901
Host Write Commands:                496,008,535
Controller Busy Time:               1,454
Power Cycles:                       2,705
Power On Hours:                     1,567
Unsafe Shutdowns:                   226
Media and Data Integrity Errors:    0
Error Information Log Entries:      2,071
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               39 Celsius
Temperature Sensor 2:               41 Celsius

Error Information (NVMe Log 0x01, max 64 entries)
No Errors Logged

좀 더 자세한 정보를 얻기 위해 로그에 있는 키워드를 살펴봤습니다. 로그에서 nvme, ext4-fs를 확인했습니다. 참고로 다음과 같은 항목이 있습니다.

/var/log/kern.log:Aug  3 19:01:43 pop-os kernel: [  237.251085] blk_update_request: I/O error, dev nvme0n1, sector 1209397344 op 0x0:(READ) flags 0x80700 phys_seg 2 prio class 0

...

/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    2.115859]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.868483] EXT4-fs (nvme0n1p3): INFO: recovery required on readonly filesystem
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.868483] EXT4-fs (nvme0n1p3): write access will be enabled during recovery
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.894018] EXT4-fs (nvme0n1p3): orphan cleanup on readonly fs
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.904196] EXT4-fs (nvme0n1p3): 227 orphan inodes deleted
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.904197] EXT4-fs (nvme0n1p3): recovery complete
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    3.916157] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    4.235950] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    5.580150] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug  3 22:39:08 pop-os kernel: [    5.580956] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug  3 22:39:48 pop-os kernel: [   47.658007] blk_update_request: I/O error, dev nvme0n1, sector 1209399024 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
/var/log/kern.log:Aug  5 07:16:47 pop-os kernel: [    2.018779]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug  5 07:16:47 pop-os kernel: [    3.839434] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug  5 07:16:47 pop-os kernel: [    4.149146] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug  5 07:16:47 pop-os kernel: [    5.006306] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug  5 07:16:47 pop-os kernel: [    5.006685] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug  9 15:03:31 pop-os kernel: [    2.105116]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug  9 15:03:31 pop-os kernel: [    3.892947] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug  9 15:03:31 pop-os kernel: [    4.183333] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug  9 15:03:31 pop-os kernel: [    4.682363] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug  9 15:03:31 pop-os kernel: [    4.683046] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    2.111633]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    3.817532] EXT4-fs (nvme0n1p3): INFO: recovery required on readonly filesystem
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    3.817532] EXT4-fs (nvme0n1p3): write access will be enabled during recovery
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    3.827850] EXT4-fs (nvme0n1p3): recovery complete
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    3.832040] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    4.169487] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    5.442449] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 10 13:35:55 pop-os kernel: [    5.444632] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    2.078927]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    3.845395] EXT4-fs (nvme0n1p3): INFO: recovery required on readonly filesystem
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    3.845396] EXT4-fs (nvme0n1p3): write access will be enabled during recovery
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    4.026435] EXT4-fs (nvme0n1p3): orphan cleanup on readonly fs
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    4.026557] EXT4-fs (nvme0n1p3): 16 orphan inodes deleted
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    4.026557] EXT4-fs (nvme0n1p3): recovery complete
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    4.037091] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    4.352561] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    5.140268] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 11 00:03:10 pop-os kernel: [    5.176295] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    2.063656]  nvme0n1: p1 p2 p3 p4
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    3.861041] EXT4-fs (nvme0n1p3): INFO: recovery required on readonly filesystem
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    3.861041] EXT4-fs (nvme0n1p3): write access will be enabled during recovery
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    3.876059] EXT4-fs (nvme0n1p3): recovery complete
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    3.880170] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    4.200170] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    5.109084] FAT-fs (nvme0n1p1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
/var/log/kern.log:Aug 11 10:12:22 pop-os kernel: [    5.131469] FAT-fs (nvme0n1p2): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
grep: /var/log/private: Is a directory
grep: /var/log/speech-dispatcher: Is a directory
/var/log/syslog:Aug  3 18:58:00 pop-os kernel: [    2.092722]  nvme0n1: p1 p2 p3 p4
/var/log/syslog:Aug  3 18:58:00 pop-os kernel: [    3.780347] EXT4-fs (nvme0n1p3): mounted filesystem with ordered data mode. Opts: (null)
/var/log/syslog:Aug  3 18:58:00 pop-os kernel: [    4.089493] EXT4-fs (nvme0n1p3): re-mounted. Opts: errors=remount-ro
Binary file /var/log/syslog matches

dmesg에서도 온도 관련 오류가 많이 표시됩니다. 비록 이것이 얼마나 심각한지는 모르겠지만(임계값이 81C라는 점을 고려하면 약간 걱정스럽기는 하지만)

[    3.417048] kernel: mce: CPU3: Core temperature above threshold, cpu clock throttled (total events = 1)
[    3.417049] kernel: mce: CPU9: Core temperature above threshold, cpu clock throttled (total events = 1)
[    3.417050] kernel: mce: CPU3: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417050] kernel: mce: CPU9: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417091] kernel: mce: CPU6: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417093] kernel: mce: CPU7: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417094] kernel: mce: CPU1: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417095] kernel: mce: CPU0: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417096] kernel: mce: CPU4: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417097] kernel: mce: CPU2: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417098] kernel: mce: CPU5: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417099] kernel: mce: CPU10: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417100] kernel: mce: CPU8: Package temperature above threshold, cpu clock throttled (total events = 1)
[    3.417101] kernel: mce: CPU11: Package temperature above threshold, cpu clock throttled (total events = 1)

마지막으로, popos를 설치할 때(이 문제로 인해 지난 달에 여러 번 수행했습니다) 아마도 두 번의 시도 중 한 번은 추출 단계에서 설치 프로그램이 실패할 것입니다. 라이브 USB나 설치 설정을 변경하지 않고 몇 번 다시 시도하면 작동하므로 무작위 읽기/쓰기 오류처럼 보입니다. 설치 로그에도 입/출력 오류가 표시되는 것 같습니다. 주목할 만한 항목은 다음과 같습니다.

Jul 31 21:30:16 pop-os kernel: [  163.161995] nvme nvme0: controller is down; will reset: CSTS=0xffffffff, PCI_STATUS=0xffff
Jul 31 21:30:16 pop-os kernel: [  163.254016] nvme 0000:71:00.0: Refused to change power state, currently in D3
Jul 31 21:30:16 pop-os kernel: [  163.254502] nvme nvme0: Removing after probe failure status: -19
Jul 31 21:30:16 pop-os kernel: [  163.346070] blk_update_request: I/O error, dev nvme0n1, sector 38805760 op 0x9:(WRITE_ZEROES) flags 0x800 phys_seg 0 prio class 0
Jul 31 21:30:16 pop-os kernel: [  163.347594] EXT4-fs warning (device nvme0n1p3): ext4_end_bio:309: I/O error 10 writing to inode 33423367 (offset 9043968 size 2306048 starting block 1219744)
Jul 31 21:30:16 pop-os kernel: [  163.347601] Buffer I/O error on device nvme0n1p3, logical block 43168
Jul 31 21:30:16 pop-os kernel: [  163.347610] Buffer I/O error on device nvme0n1p3, logical block 43169

추가 정보:

  1. 또한 노트북과 함께 제공되는 몇 가지 메모리 진단 테스트를 수행했는데 그 중 어떤 오류도 반환되지 않았습니다(누군가 요청하지 않는 한 여기에 게시하지 않음).

  2. Linux를 다시 설치할 때마다 잠시 후 문제가 다시 발생합니다(디스크를 최대한 비워두려고 하면 시간이 더 오래 걸릴 것 같지만). 또한 설치 시 "새로 고침" 옵션이 도움이 되지 않는 것 같아서 Linux를 완전히 다시 설치해야 했습니다.

수리 시도:

  1. 이 문제는 일반적으로 Linux를 새로 설치할 때 며칠 후에 다시 발생하며, 하드 드라이브에 얼마나 많은 콘텐츠를 넣었는지와 관련된 것 같습니다. 의도적으로 최소한으로 유지하려고 하면 충돌이 발생하기까지 시간이 더 오래 걸리는 것 같습니다. 마지막 충돌은 Python을 통해 약간의 집중적(수 100MB) 읽기 및 쓰기 작업을 수행할 때 발생했습니다.

  2. Arch-linux 위키에 힌트가 있습니다(https://wiki.archlinux.org/index.php/Solid_state_drive/NVMe) 즉

    Linux 4.10의 Samsung 드라이버 오류

    Linux 4.10에서는 드라이브 오류가 발생하여 시스템이 불안정해질 수 있습니다. 이는 드라이브를 사용할 수 없는 절전 상태로 인해 발생한 것으로 보입니다. 최소 절전 상태를 비활성화하고 쓰기 오류를 방지하려면 커널 매개변수 nvme_core.default_ps_max_latency_us=5500[4][5]를 추가하세요.

    내 것도 삼성(자세한 내용은 아래 참조)이므로 제안된 대로 수행했지만 도움이 되지 않은 것 같습니다.

  3. SSD 업데이트는 없지만 주로 BIOS를 통해 모든 펌웨어를 업데이트했습니다. 이로 인해 몇 가지 다른 문제가 해결되었지만 이 특정 문제는 해결되지 않았습니다.

나는 하드웨어에 대한 지식이 거의 없고 내가 전혀 알지 못하는 임의의 커널 매개변수를 입력하고 싶지 않기 때문에 어떻게 진행해야 할지 잘 모르겠습니다.
필요한 경우 전체 로그를 업데이트할 수 있습니다.

답변1

NVMe 하드웨어 장치에 문제가 있는 것 같습니다. 복구 USB 이미지에서 부팅하고 NVMe 장치에서 실행해 볼 수 있습니다 badblocks. 또는 장치를 지우거나 테스트할 수 있는 삼성 진단 도구가 있는 경우 실행할 수 있습니까?

관련 정보