BTRS 오류는 항상 드라이브가 곧 실패할 것임을 의미합니까?

BTRS 오류는 항상 드라이브가 곧 실패할 것임을 의미합니까?

의욕이 사라질 수도 있다고 생각했는데 상충되는 피드백을 받았습니다. 드라이브는XPG Gammix AGAMMIXS11P-1TT-C S11 Pro 3D NAND PCIe NVMe Gen3x4 M.2 2280 SSD 1To. 저는 Fedora를 사용하고 있습니다(34로 시작했다가 문제를 파악하는 동안 35로 옮겼습니다.)

그래서 몇 주 동안 Input/output error꽤 큰(5GB 이상) 백업 파일을 해싱할 때 's'가 표시되었습니다. dmesg나에게 다음과 같은 항목을 제공합니다.

BTRFS warning (device dm-0): csum failed root 256 ino 31359 off 70897819648 csum 0xc39e6daf expected csum 0xdd85c8f2 mirror 1
[ 4851.163157] BTRFS error (device dm-0): bdev /dev/mapper/luks-197f7c13-2430-4e53-bc76-2eb5a06a2419 errs: wr 0, rd 0, flush 0, corrupt 1, gen 0

그 자체로는 큰 문제입니다. 저는 기본적으로 이 컴퓨터를 읽기 전용 장치처럼 사용해 왔지만, 게다가 /usr/lib/일부 무작위 파일(작은 구성 또는 lib 파일)과 Firefox에서 더 많은 btrfs 오류가 발생했습니다. 작동을 멈췄습니다. 나머지 시스템은 괜찮습니다. nvme-cli드라이브에서 스마트로그가 자주 나오는게 너무 걱정입니다 . 결과는 좋아 보였고 여전히 좋아 보입니다.

Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning            : 0
temperature                 : 43 C
available_spare             : 100%
available_spare_threshold   : 10%
percentage_used             : 0%
endurance group critical warning summary: 0
data_units_read             : 23,088,142
data_units_written          : 15,395,166
host_read_commands          : 87,911,793
host_write_commands         : 133,959,725
controller_busy_time        : 2,823
power_cycles                : 875
power_on_hours              : 3,634
unsafe_shutdowns            : 84
media_errors                : 0
num_err_log_entries         : 0
Warning Temperature Time    : 0
Critical Composite Temperature Time : 0
Temperature Sensor 2        : 43 C
Temperature Sensor 3        : 59 C
Temperature Sensor 4        : 43 C
Temperature Sensor 5        : 43 C
Temperature Sensor 6        : 42 C
Thermal Management T1 Trans Count   : 44
Thermal Management T2 Trans Count   : 14
Thermal Management T1 Total Time    : 899
Thermal Management T2 Total Time    : 333

저는 Fedora 35를 새로 설치하기로 결정했고 설치 과정은 잘 진행되었습니다. 시스템이 안정적이었습니다. 방금 백업(~180GB)을 드라이브에 다시 쓰고 해싱을 시도하기로 결정했고 Input/output error또 하나를 얻었습니다. 실행해 보았는데 btrfs scrub start /테스트 결과는 정상입니다.

UUID:             fd4449cc-ab1b-401c-8c62-916bd5e2353c
Scrub started:    Sun Jan  9 19:31:55 2022
Status:           finished
Duration:         0:00:57
Total to scrub:   182.23GiB
Rate:             3.20GiB/s
Error summary:    no errors found

이제 해시가 작동합니다! (아니요 Input/output error, 해시는 파일이 손상되지 않았음을 보여줍니다.)

어떻게 되어가나요? 내 드라이브가 서서히 죽어가는 걸까요? 확인하기 위해 추가 테스트( btrfs scrub및 제외)를 실행할 수 있습니까 ?nvme smart-log


편집: 방금 다음을 얻었습니다 dmesg -w.

[ 1654.979314] nvme nvme0: I/O 530 QID 12 timeout, aborting
[ 1654.979326] nvme nvme0: I/O 531 QID 12 timeout, aborting
[ 1654.979330] nvme nvme0: I/O 532 QID 12 timeout, aborting
[ 1654.979334] nvme nvme0: I/O 533 QID 12 timeout, aborting
[ 1654.979337] nvme nvme0: I/O 534 QID 12 timeout, aborting
[ 1671.274745] nvme nvme0: Abort status: 0x0
[ 1671.274767] nvme nvme0: Abort status: 0x0
[ 1671.274771] nvme nvme0: Abort status: 0x0
[ 1671.274774] nvme nvme0: Abort status: 0x0
[ 1671.274776] nvme nvme0: Abort status: 0x0

출력 smartctl -a:

=== START OF INFORMATION SECTION ===
Model Number:                       XPG GAMMIX S11 Pro
Serial Number:                      xxxxxxxxxxxx
Firmware Version:                   32A0T2IA
PCI Vendor/Subsystem ID:            0x1cc1
IEEE OUI Identifier:                0x000000
Controller ID:                      1
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization:            204,128,706,560 [204 GB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Jan 10 12:35:38 2022 EST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0b):         S/H_per_NS Cmd_Eff_Lg Telmtry_Lg
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4    15000   15000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        41 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    23,571,578 [12.0 TB]
Data Units Written:                 15,420,722 [7.89 TB]
Host Read Commands:                 89,012,266
Host Write Commands:                134,091,234
Controller Busy Time:               2,832
Power Cycles:                       878
Power On Hours:                     3,639
Unsafe Shutdowns:                   84
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 2:               41 Celsius
Temperature Sensor 3:               56 Celsius
Temperature Sensor 4:               41 Celsius
Temperature Sensor 5:               41 Celsius
Temperature Sensor 6:               40 Celsius
Thermal Temp. 1 Transition Count:   44
Thermal Temp. 2 Transition Count:   14
Thermal Temp. 1 Total Time:         899
Thermal Temp. 2 Total Time:         333

Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged

자체 테스트 결과(도구 사용 방법을 조사하면서 두 가지 간단한 테스트를 실행했습니다):

Device Self Test Log for NVME device:nvme0
Current operation  : 0
Current Completion : 0%
Self Test Result[0]:
  Operation Result             : 0
  Self Test Code               : 2
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[1]:
  Operation Result             : 0
  Self Test Code               : 1
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[2]:
  Operation Result             : 0
  Self Test Code               : 1
  Valid Diagnostic Information : 0
  Power on hours (POH)         : 0xe3c
  Vendor Specific              : 0 0
Self Test Result[3]:
  Operation Result             : 0xf
Self Test Result[4]:
  Operation Result             : 0xf
Self Test Result[5]:
  Operation Result             : 0xf
Self Test Result[6]:
  Operation Result             : 0xf
Self Test Result[7]:
  Operation Result             : 0xf
Self Test Result[8]:
  Operation Result             : 0xf
Self Test Result[9]:
  Operation Result             : 0xf
Self Test Result[10]:
  Operation Result             : 0xf
Self Test Result[11]:
  Operation Result             : 0xf
Self Test Result[12]:
  Operation Result             : 0xf
Self Test Result[13]:
  Operation Result             : 0xf
Self Test Result[14]:
  Operation Result             : 0xf
Self Test Result[15]:
  Operation Result             : 0xf
Self Test Result[16]:
  Operation Result             : 0xf
Self Test Result[17]:
  Operation Result             : 0xf
Self Test Result[18]:
  Operation Result             : 0xf
Self Test Result[19]:
  Operation Result             : 0xf

재부팅 후 실행 하면 dmesg | grep -i nvme다음 사항에 대해 아무 것도 얻지 못합니다.

[    1.381334] nvme nvme0: pci function 0000:01:00.0
[    1.392743] nvme nvme0: 15/0/0 default/read/poll queues
[    1.394601]  nvme0n1: p1 p2 p3
[   19.943676] EXT4-fs (nvme0n1p2): mounted filesystem with ordered data mode. Opts: (null). Quota mode: none.

답변1

2022년에 이 질문에 대한 답변이 한동안 없어 잊어버렸지만 실제로는 마침내 "드라이브"에 문제가 무엇인지 알아냈습니다. 따라서 이 질문을 우연히 발견한 사람을 위해:

드라이브는 괜찮으나 시스템이 문제네요문제가 있습니다. memtest86 테스트를 통해 이를 입증한 후 보증 교체를 받았고 체크섬 오류나 드라이브 또는 BTRFS 관련 문제가 다시는 발생하지 않았습니다.


자세한 내용: 이 빌드에는 16GB RAM이 2개 있는데, 이는 표시되는 작업 부하에 비해 상당히 과잉입니다. 결함이 있는 스틱은 두 번째 스틱이므로 시스템에서는 거의 사용되지 않습니다. 이는 전체 시스템이 안정적인 이유를 설명합니다.

거의 모든 대용량 파일 해시에서 오류가 발생하지만 작은 파일 작업(여기서 파일이 손상됨)에서도 간헐적으로 오류가 발생합니다. 대부분의 작은 파일 작업은 첫 번째 루트 RAM을 사용하고 첫 번째 16GB RAM을 사용한 다른 응용 프로그램에 의해 두 번째 루트 RAM으로 "푸시"되는 경우가 거의 없기 때문에 이런 일이 발생한다고 생각합니다. 대용량 파일 해시는 16GB 이상의 RAM이 실제로 유용한 시스템에서 몇 안 되는 사용 사례 중 하나이기 때문에 문제의 가장 확실한 징후입니다. 예를 들어, 전문 비디오 편집자는 나보다 더 빨리 이 시스템을 거부할 수 있습니다(그들은 대용량 파일을 처리하는 소프트웨어를 자주 사용합니다).

관련 정보