의욕이 사라질 수도 있다고 생각했는데 상충되는 피드백을 받았습니다. 드라이브는XPG Gammix AGAMMIXS11P-1TT-C S11 Pro 3D NAND PCIe NVMe Gen3x4 M.2 2280 SSD 1To. 저는 Fedora를 사용하고 있습니다(34로 시작했다가 문제를 파악하는 동안 35로 옮겼습니다.)
그래서 몇 주 동안 Input/output error
꽤 큰(5GB 이상) 백업 파일을 해싱할 때 's'가 표시되었습니다. dmesg
나에게 다음과 같은 항목을 제공합니다.
BTRFS warning (device dm-0): csum failed root 256 ino 31359 off 70897819648 csum 0xc39e6daf expected csum 0xdd85c8f2 mirror 1
[ 4851.163157] BTRFS error (device dm-0): bdev /dev/mapper/luks-197f7c13-2430-4e53-bc76-2eb5a06a2419 errs: wr 0, rd 0, flush 0, corrupt 1, gen 0
그 자체로는 큰 문제입니다. 저는 기본적으로 이 컴퓨터를 읽기 전용 장치처럼 사용해 왔지만, 게다가 /usr/lib/
일부 무작위 파일(작은 구성 또는 lib 파일)과 Firefox에서 더 많은 btrfs 오류가 발생했습니다. 작동을 멈췄습니다. 나머지 시스템은 괜찮습니다. nvme-cli
드라이브에서 스마트로그가 자주 나오는게 너무 걱정입니다 . 결과는 좋아 보였고 여전히 좋아 보입니다.
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning : 0
temperature : 43 C
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 0%
endurance group critical warning summary: 0
data_units_read : 23,088,142
data_units_written : 15,395,166
host_read_commands : 87,911,793
host_write_commands : 133,959,725
controller_busy_time : 2,823
power_cycles : 875
power_on_hours : 3,634
unsafe_shutdowns : 84
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Temperature Sensor 2 : 43 C
Temperature Sensor 3 : 59 C
Temperature Sensor 4 : 43 C
Temperature Sensor 5 : 43 C
Temperature Sensor 6 : 42 C
Thermal Management T1 Trans Count : 44
Thermal Management T2 Trans Count : 14
Thermal Management T1 Total Time : 899
Thermal Management T2 Total Time : 333
저는 Fedora 35를 새로 설치하기로 결정했고 설치 과정은 잘 진행되었습니다. 시스템이 안정적이었습니다. 방금 백업(~180GB)을 드라이브에 다시 쓰고 해싱을 시도하기로 결정했고 Input/output error
또 하나를 얻었습니다. 실행해 보았는데 btrfs scrub start /
테스트 결과는 정상입니다.
UUID: fd4449cc-ab1b-401c-8c62-916bd5e2353c
Scrub started: Sun Jan 9 19:31:55 2022
Status: finished
Duration: 0:00:57
Total to scrub: 182.23GiB
Rate: 3.20GiB/s
Error summary: no errors found
이제 해시가 작동합니다! (아니요 Input/output error
, 해시는 파일이 손상되지 않았음을 보여줍니다.)
어떻게 되어가나요? 내 드라이브가 서서히 죽어가는 걸까요? 확인하기 위해 추가 테스트( btrfs scrub
및 제외)를 실행할 수 있습니까 ?nvme smart-log
편집: 방금 다음을 얻었습니다 dmesg -w
.
[ 1654.979314] nvme nvme0: I/O 530 QID 12 timeout, aborting
[ 1654.979326] nvme nvme0: I/O 531 QID 12 timeout, aborting
[ 1654.979330] nvme nvme0: I/O 532 QID 12 timeout, aborting
[ 1654.979334] nvme nvme0: I/O 533 QID 12 timeout, aborting
[ 1654.979337] nvme nvme0: I/O 534 QID 12 timeout, aborting
[ 1671.274745] nvme nvme0: Abort status: 0x0
[ 1671.274767] nvme nvme0: Abort status: 0x0
[ 1671.274771] nvme nvme0: Abort status: 0x0
[ 1671.274774] nvme nvme0: Abort status: 0x0
[ 1671.274776] nvme nvme0: Abort status: 0x0
출력 smartctl -a
:
=== START OF INFORMATION SECTION ===
Model Number: XPG GAMMIX S11 Pro
Serial Number: xxxxxxxxxxxx
Firmware Version: 32A0T2IA
PCI Vendor/Subsystem ID: 0x1cc1
IEEE OUI Identifier: 0x000000
Controller ID: 1
NVMe Version: 1.3
Number of Namespaces: 1
Namespace 1 Size/Capacity: 1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization: 204,128,706,560 [204 GB]
Namespace 1 Formatted LBA Size: 512
Local Time is: Mon Jan 10 12:35:38 2022 EST
Firmware Updates (0x14): 2 Slots, no Reset required
Optional Admin Commands (0x0017): Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f): Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x0b): S/H_per_NS Cmd_Eff_Lg Telmtry_Lg
Maximum Data Transfer Size: 64 Pages
Warning Comp. Temp. Threshold: 75 Celsius
Critical Comp. Temp. Threshold: 80 Celsius
Supported Power States
St Op Max Active Idle RL RT WL WT Ent_Lat Ex_Lat
0 + 9.00W - - 0 0 0 0 0 0
1 + 4.60W - - 1 1 1 1 0 0
2 + 3.80W - - 2 2 2 2 0 0
3 - 0.0450W - - 3 3 3 3 2000 2000
4 - 0.0040W - - 4 4 4 4 15000 15000
Supported LBA Sizes (NSID 0x1)
Id Fmt Data Metadt Rel_Perf
0 + 512 0 0
=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 41 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 23,571,578 [12.0 TB]
Data Units Written: 15,420,722 [7.89 TB]
Host Read Commands: 89,012,266
Host Write Commands: 134,091,234
Controller Busy Time: 2,832
Power Cycles: 878
Power On Hours: 3,639
Unsafe Shutdowns: 84
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 2: 41 Celsius
Temperature Sensor 3: 56 Celsius
Temperature Sensor 4: 41 Celsius
Temperature Sensor 5: 41 Celsius
Temperature Sensor 6: 40 Celsius
Thermal Temp. 1 Transition Count: 44
Thermal Temp. 2 Transition Count: 14
Thermal Temp. 1 Total Time: 899
Thermal Temp. 2 Total Time: 333
Error Information (NVMe Log 0x01, 16 of 256 entries)
No Errors Logged
자체 테스트 결과(도구 사용 방법을 조사하면서 두 가지 간단한 테스트를 실행했습니다):
Device Self Test Log for NVME device:nvme0
Current operation : 0
Current Completion : 0%
Self Test Result[0]:
Operation Result : 0
Self Test Code : 2
Valid Diagnostic Information : 0
Power on hours (POH) : 0xe3c
Vendor Specific : 0 0
Self Test Result[1]:
Operation Result : 0
Self Test Code : 1
Valid Diagnostic Information : 0
Power on hours (POH) : 0xe3c
Vendor Specific : 0 0
Self Test Result[2]:
Operation Result : 0
Self Test Code : 1
Valid Diagnostic Information : 0
Power on hours (POH) : 0xe3c
Vendor Specific : 0 0
Self Test Result[3]:
Operation Result : 0xf
Self Test Result[4]:
Operation Result : 0xf
Self Test Result[5]:
Operation Result : 0xf
Self Test Result[6]:
Operation Result : 0xf
Self Test Result[7]:
Operation Result : 0xf
Self Test Result[8]:
Operation Result : 0xf
Self Test Result[9]:
Operation Result : 0xf
Self Test Result[10]:
Operation Result : 0xf
Self Test Result[11]:
Operation Result : 0xf
Self Test Result[12]:
Operation Result : 0xf
Self Test Result[13]:
Operation Result : 0xf
Self Test Result[14]:
Operation Result : 0xf
Self Test Result[15]:
Operation Result : 0xf
Self Test Result[16]:
Operation Result : 0xf
Self Test Result[17]:
Operation Result : 0xf
Self Test Result[18]:
Operation Result : 0xf
Self Test Result[19]:
Operation Result : 0xf
재부팅 후 실행 하면 dmesg | grep -i nvme
다음 사항에 대해 아무 것도 얻지 못합니다.
[ 1.381334] nvme nvme0: pci function 0000:01:00.0
[ 1.392743] nvme nvme0: 15/0/0 default/read/poll queues
[ 1.394601] nvme0n1: p1 p2 p3
[ 19.943676] EXT4-fs (nvme0n1p2): mounted filesystem with ordered data mode. Opts: (null). Quota mode: none.
답변1
2022년에 이 질문에 대한 답변이 한동안 없어 잊어버렸지만 실제로는 마침내 "드라이브"에 문제가 무엇인지 알아냈습니다. 따라서 이 질문을 우연히 발견한 사람을 위해:
드라이브는 괜찮으나 시스템이 문제네요램문제가 있습니다. memtest86 테스트를 통해 이를 입증한 후 보증 교체를 받았고 체크섬 오류나 드라이브 또는 BTRFS 관련 문제가 다시는 발생하지 않았습니다.
자세한 내용: 이 빌드에는 16GB RAM이 2개 있는데, 이는 표시되는 작업 부하에 비해 상당히 과잉입니다. 결함이 있는 스틱은 두 번째 스틱이므로 시스템에서는 거의 사용되지 않습니다. 이는 전체 시스템이 안정적인 이유를 설명합니다.
거의 모든 대용량 파일 해시에서 오류가 발생하지만 작은 파일 작업(여기서 파일이 손상됨)에서도 간헐적으로 오류가 발생합니다. 대부분의 작은 파일 작업은 첫 번째 루트 RAM을 사용하고 첫 번째 16GB RAM을 사용한 다른 응용 프로그램에 의해 두 번째 루트 RAM으로 "푸시"되는 경우가 거의 없기 때문에 이런 일이 발생한다고 생각합니다. 대용량 파일 해시는 16GB 이상의 RAM이 실제로 유용한 시스템에서 몇 안 되는 사용 사례 중 하나이기 때문에 문제의 가장 확실한 징후입니다. 예를 들어, 전문 비디오 편집자는 나보다 더 빨리 이 시스템을 거부할 수 있습니다(그들은 대용량 파일을 처리하는 소프트웨어를 자주 사용합니다).