무작위 SSD 종료 - ext4_find_entry, lblock0 디렉토리 읽기

무작위 SSD 종료 - ext4_find_entry, lblock0 디렉토리 읽기

지난 2주 동안 GNU/Linux의 SSD에 문제가 발생했습니다. 기기 문제는 아닌 것 같은데 잘 모르겠습니다. 때때로(지난 며칠 동안 1~2일마다) 연결이 끊어졌거나 전원이 꺼진 것처럼 디스크에 대한 물리적 액세스가 끊어지는 경우가 있습니다.

실수:

EXT4-fs error (device: sda2): ext4_find_entry:1465: inode #1308161: comm NetworkManager: reading directory lblock 0

사진에 있는 내용을 잘못 입력해서 정확하지 않을 수도 있습니다.

노트:

장치는 항상 동일한 "sda2"이며 다른(대규모 제품군) 파티션에서는 오류가 발견되지 않습니다. 다음에 확인해보도록 할게요. Inode 및 프로세스 이름은 변경되지만 NetworkManager는 일반적입니다. lblock은 항상 0입니다.

하드웨어:

SSD 디스크 LITEON CV3-8D512-11 SATA 512GB를 탑재한 Dell E7270

소프트웨어:

데비안 커널 4.11에서 테스트되었습니다.

smartctl 간략한 출력:

Device Model:     LITEON CV3-8D512-11 SATA 512GB
Serial Number:    TW0956WWLOH006CU022Z
LU WWN Device Id: 5 002303 100ce15e0                                                                                                                                         
Firmware Version: T89110D                                                                                                                                                    
User Capacity:    512,110,190,592 bytes [512 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      M.2
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS, ATA/ATAPI-7 T13/1532D revision 4a
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Wed Jul  5 12:32:39 2017 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

...

SMART Attributes Data Structure revision number: 1
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0003   100   100   000    Pre-fail  Always       -       0
  9 Power_On_Hours          0x0002   100   100   000    Old_age   Always       -       327
 12 Power_Cycle_Count       0x0003   100   100   000    Pre-fail  Always       -       335
175 Program_Fail_Count_Chip 0x0003   100   100   000    Pre-fail  Always       -       0
176 Erase_Fail_Count_Chip   0x0003   100   100   000    Pre-fail  Always       -       0
177 Wear_Leveling_Count     0x0003   100   100   000    Pre-fail  Always       -       59
178 Used_Rsvd_Blk_Cnt_Chip  0x0003   100   100   000    Pre-fail  Always       -       0
179 Used_Rsvd_Blk_Cnt_Tot   0x0003   100   100   000    Pre-fail  Always       -       0
180 Unused_Rsvd_Blk_Cnt_Tot 0x0033   100   100   005    Pre-fail  Always       -       2688
181 Program_Fail_Cnt_Total  0x0003   100   100   000    Pre-fail  Always       -       0
182 Erase_Fail_Count_Total  0x0003   100   100   000    Pre-fail  Always       -       0
187 Reported_Uncorrect      0x0003   100   100   000    Pre-fail  Always       -       0
194 Temperature_Celsius     0x0003   100   100   000    Pre-fail  Always       -       76
195 Hardware_ECC_Recovered  0x0003   100   100   000    Pre-fail  Always       -       0
199 UDMA_CRC_Error_Count    0x0003   100   100   000    Pre-fail  Always       -       0
238 Unknown_Attribute       0x0003   097   100   000    Pre-fail  Always       -       3
241 Total_LBAs_Written      0x0003   100   100   000    Pre-fail  Always       -       4293005286
242 Total_LBAs_Read         0x0003   100   100   000    Pre-fail  Always       -       3510503294

SMART Error Log Version: 0
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%       298         -
# 2  Short offline       Completed without error       00%       294         -
# 3  Offline             Interrupted (host reset)      80%       294         -
# 4  Offline             Interrupted (host reset)      10%       294         -
# 5  Short offline       Completed without error       00%       294         -
# 6  Short offline       Completed without error       00%         1         -
# 7  Short offline       Aborted by host               90%         1         -

아이디어:

  • 불량 블록 검사 실행
  • 연결 확인

답변1

이것은 APST 문제입니다.

두 가지 솔루션이 있습니다.

  1. 달리기

    sudo nano /etc/default/grub
    

    value 로 시작하는 줄을 검색 GRUB_CMDLINE_LINUX_DEFAULT하고 value 로 추가합니다 nvme_core.default_ps_max_latency_us=0.

    결과는 다음과 같습니다.

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash nvme_core.default_ps_max_latency_us=0"
    

    그런 다음 파일을 저장합니다.

    sudo update-grub
    reboot
    
  2. 첫 번째 변형이 작동하지 않으면 ASPM: 을 비활성화하세요 pcie_aspm=off. 따라서 최종 결과는 다음과 같아야 합니다.

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pcie_aspm=off"
    

    그런 다음 파일을 저장합니다.

    sudo update-grub
    reboot
    

답변2

이것이 귀하의 컴퓨터에서 위 동작의 원인이 아닐 수도 있습니다. 하지만 제 경우에는 컴퓨터가 전선에 근접해 있었기 때문이었습니다. 내 컴퓨터에 APST 문제를 일으키는 전자기 공명 또는 기타 이유와 같은 일부 물리적 현상이 있을 수 있습니다. 더 이상 전원 코드 근처에 노트북을 두지 않도록 책상을 재배치했고 문제가 해결되었습니다. 단순한.

답변3

나는 강한 전자기장에 동의합니다. 집이 거기에 있다면 이사하거나 이전해야 할 이유가 될 수 있습니다.

나는 커피를 마시며 일을 하러 카페에 갔는데 그곳에서는 모든 것이 잘못되었습니다. 바닥이 무너지고 웨이트리스들이 뛰어다녔습니다. 시계를 3번 바꿨는데 마지막으로 문제의 오류가 발생하기 시작했습니다. 그런 다음 동일한 결과로 약 5-7 번 다시 시작했습니다. 나는 아무것도 할 수 없는 매우 짜증난 상태에서(나에게는 이상했다) 집으로 돌아갔다.

이제 집에서는 모든 것이 정상으로 돌아왔습니다!

SSD 디스크(또는 인체의 심리적, 감정적 상태)와 같은 민감한 장치는 이러한 전자기 환경에 반응할 수 있는 것으로 보입니다.

따라서 시스템을 재구성하거나 노트북을 보호하려는 기타 위험한 변경을 하기 전에 먼저 다른 위치를 시도해 보십시오!

답변4

SDD를 제거하고 M.2 커넥터에 공기를 불어 넣은 후 다시 연결하여 문제를 해결한 것 같습니다.

USB에서 Debian Rescue를 부팅했을 때 더 자세한 커널 디버깅 정보를 발견했습니다. 검색하는 동안 대부분의 솔루션에는 SATA 케이블 교체가 포함된다는 것을 알았습니다. 케이블 없이 노트북 M.2 연결.

화면을 공개하고 있어요 화면

가장 중요한 로그 텍스트 중 일부는 다음과 같습니다.

exception Emask 0x10 SAct ... SErr ... action 0xe frozen
interface fatal error, PHY RDY changed
SError: { PHYRdyChg LinkSeq }
failed command: WRITE FPDMA QUEUED
Emask 0x10 (ATA bus error)
hard resetting link

관련 정보