하드웨어:
- 삼성 980 PRO M.2 NVMe SSD(MZ-V8P2T0BW)(2TB)
- Beelink GTR6, NVMe 슬롯의 SSD
하드웨어가 도착한 후 Ubuntu Server와 여기에 여러 서비스(주로 docker, DB 및 Kafka 서비스)를 설치했습니다.
2~3일의 가동 시간이 지나면(거의 일주일에 기록되지만 일반적으로 2~3일) 일반적으로 nvme 슬롯(부팅 드라이브이기도 함)에서 버퍼 I/O 오류가 발생하기 시작합니다.
충분히 빠르면 여전히 SSH를 통해 로그인할 수 있지만 시스템이 점점 불안정해지고 I/O 오류로 인해 명령이 실패하기 시작합니다. 성공적으로 로그인했는데 NVME SSD가 연결되어 있지 않은 것 같습니다.
그래서 제가 찾을 수 있는 모든 것을 확인하려고 부팅 시 FSCK를 실행하여 확실한 것이 있는지 확인했습니다. 이는 하드 리셋 후에 흔히 발생합니다.
# cat /run/initramfs/fsck.log
Log of fsck -C -f -y -V -t ext4 /dev/mapper/ubuntu--vg-ubuntu--lv
Fri Dec 30 17:26:21 2022
fsck from util-linux 2.37.2
[/usr/sbin/fsck.ext4 (1) -- /dev/mapper/ubuntu--vg-ubuntu--lv] fsck.ext4 -f -y -C0 /dev/mapper/ubuntu--vg-ubuntu--lv
e2fsck 1.46.5 (30-Dec-2021)
/dev/mapper/ubuntu--vg-ubuntu--lv: recovering journal
Clearing orphaned inode 524449 (uid=1000, gid=1000, mode=0100664, size=6216)
Pass 1: Checking inodes, blocks, and sizes
Inode 6947190 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947197 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947204 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947212 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947408 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947414 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947829 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947835 extent tree (at level 1) could be shorter. Optimize? yes
Inode 6947841 extent tree (at level 1) could be shorter. Optimize? yes
Pass 1E: Optimizing extent trees
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information
Free blocks count wrong (401572584, counted=405399533).
Fix? yes
Free inodes count wrong (121360470, counted=121358242).
Fix? yes
/dev/mapper/ubuntu--vg-ubuntu--lv: ***** FILE SYSTEM WAS MODIFIED *****
/dev/mapper/ubuntu--vg-ubuntu--lv: 538718/121896960 files (0.2% non-contiguous), 82178067/487577600 blocks
fsck exited with status code 1
Fri Dec 30 17:26:25 2022
----------------
스마트 로그를 실행하면 안전하지 않은 종료 횟수(지금까지 이런 일이 발생한 횟수)를 제외하고는 관련된 내용이 표시되지 않는 것 같습니다.
# nvme smart-log /dev/nvme0
Smart Log for NVME device:nvme0 namespace-id:ffffffff
critical_warning : 0
temperature : 32 C (305 Kelvin)
available_spare : 100%
available_spare_threshold : 10%
percentage_used : 0%
endurance group critical warning summary: 0
data_units_read : 8,544,896
data_units_written : 5,175,904
host_read_commands : 39,050,379
host_write_commands : 191,366,905
controller_busy_time : 1,069
power_cycles : 21
power_on_hours : 142
unsafe_shutdowns : 12
media_errors : 0
num_err_log_entries : 0
Warning Temperature Time : 0
Critical Composite Temperature Time : 0
Temperature Sensor 1 : 32 C (305 Kelvin)
Temperature Sensor 2 : 36 C (309 Kelvin)
Thermal Management T1 Trans Count : 0
Thermal Management T2 Trans Count : 0
Thermal Management T1 Total Time : 0
Thermal Management T2 Total Time : 0
지원팀에 연락했는데 일련의 질문과 함께 초기 조언은 OS를 다시 설치해 보았는지 여부였습니다. 또한 드라이브를 포맷하고 OS(Ubuntu Server 22 LTS)를 다시 설치해 보았습니다.
그 후 4일 동안 문제가 발생하지 않았으나 마침내 커널 패닉 형태로 나타났습니다.
문제가 SSD 자체에 있는지 아니면 SSD가 연결된 하드웨어(GTR6)에 있는지 확인하려면 어떻게 해야 합니까? 31일까지 SSD를 반납해야 하므로 문제의 가장 가능성 있는 원인을 최대한 빨리 파악하기를 바랍니다...
저는 Samsung 990 Pro를 사용하여 심각한 건강 문제를 겪고 있는 다른 사람들의 보고를 보고 더욱 걱정하게 되었습니다. https://www.reddit.com/r/hardware/comments/10jkwwh/samsung_990_pro_ssd_with_rapid_health_drops/
편집: 보고된 문제는 내 980 pro가 아니라 990 pro에 있다는 것을 알고 있습니다!
편집 2: 오버클러커 중 누군가가 건강 지표를 보여주는 hd Sentinel을 친절하게 제안했는데 꽤 좋아 보입니다.
# ./hdsentinel-019c-x64
Hard Disk Sentinel for LINUX console 0.19c.9986 (c) 2021 [email protected]
Start with -r [reportfile] to save data to report, -h for help
Examining hard disk configuration ...
HDD Device 0: /dev/nvme0
HDD Model ID : Samsung SSD 980 PRO 2TB
HDD Serial No: S69ENL0T905031A
HDD Revision : 5B2QGXA7
HDD Size : 1907729 MB
Interface : NVMe
Temperature : 41 °C
Highest Temp.: 41 °C
Health : 99 %
Performance : 100 %
Power on time: 21 days, 12 hours
Est. lifetime: more than 1000 days
Total written: 8.30 TB
The status of the solid state disk is PERFECT. Problematic or weak sectors were not found.
The health is determined by SSD specific S.M.A.R.T. attribute(s): Available Spare (Percent), Percentage Used
No actions needed.
마지막으로, 스마트 로그와 같이 제가 시도한 어떤 것도 상태 표시기와 유사한 것을 표시하지 않는 것 같습니다. 우분투에서 어떻게 확인할 수 있나요?
감사해요!
답변1
저도 같은 문제가 있었는데, 장치가 사라졌습니다. 부팅한 후에는 일반적으로 거기에 있었지만 어떻게든 커널(또는 드라이버)이 장치가 사라진다고 생각할 이유를 제공했습니다.
Windows에서 전체 블록 검사를 수행했을 때 14시간 남짓 지속되었으며 불량 블록이 0%였습니다... 내 드라이브는 한 달 밖에 안 됐기 때문에 하드웨어는 여전히 양호할 것으로 예상하며 드라이버 또는 마더보드/BIOS 상호 작용 문제임에 틀림없습니다 ...
출력 예:
[ 646.205010] nvme nvme1: I/O 526 QID 2 timeout, aborting
[ 646.205039] nvme nvme1: I/O 213 QID 5 timeout, aborting
[ 646.264489] nvme nvme1: Abort status: 0x0
[ 646.351285] nvme nvme1: Abort status: 0x0
[ 676.924830] nvme nvme1: I/O 526 QID 2 timeout, reset controller
[ 697.972569] nvme nvme1: Device not ready; aborting reset, CSTS=0x1
[ 697.993956] pcieport 10000:e0:1b.0: can't derive routing for PCI INT A
[ 697.993965] nvme 10000:e2:00.0: PCI INT A: no GSI
[ 709.369577] wlp45s0: AP e0:cc:7a:98:7d:d4 changed bandwidth, new config is 2432.000 MHz, width 2 (2442.000/0 MHz)
[ 718.496375] nvme nvme1: Device not ready; aborting reset, CSTS=0x1
[ 718.496381] nvme nvme1: Removing after probe failure status: -19
[ 739.020199] nvme nvme1: Device not ready; aborting reset, CSTS=0x1
[ 739.020477] nvme1n1: detected capacity change from 2000409264 to 0
이제 나는 이것을 시도했습니다 :echo 10000:e2:00.0 >/sys/bus/pci/drivers/nvme/bind
이렇게 하면 lspci
"누락된" 장치가 올바르게 열거됩니다(10000:e2:00.0 비휘발성 메모리 컨트롤러: ADATA Technology Co., Ltd. Device 5766(rev 01)).
그런데 안나오고 lsblk
여기서 어떻게 진행해야할지 모르겠네요...
드라이브를 다시 바인딩한 후 dmesg 출력:
[14893.259570] nvme nvme2: pci function 10000:e2:00.0
[14893.259678] pcieport 10000:e0:1b.0: can't derive routing for PCI INT A
[14893.259685] nvme 10000:e2:00.0: PCI INT A: no GSI
[14913.760764] nvme nvme2: Device not ready; aborting reset, CSTS=0x1
[14913.760771] nvme nvme2: Removing after probe failure status: -19
결국 새 모듈을 구입하여 동일한 슬롯에 설치했고(이전 모듈 교체) 모든 것이 잘 작동했습니다.
결론: [아마도] 불량한 NVMe 스틱입니다. 이런 일이 발생하며 귀하의 설정도 동일할 것입니다.