실제로 smartctl을 사용하는 방법은 무엇입니까?

실제로 smartctl을 사용하는 방법은 무엇입니까?

나는 smartctl디스크를 실제로 파헤치지 않고 그냥 아무 생각 없이 디스크를 살펴보았습니다. 기사를 읽은 후해커 뉴스에 대한 댓글일일 단기 검사와 주간 장기 검사 일정을 잡기로 결정했습니다.

실제로 그것들을 잘 활용하는 방법은 무엇입니까?

결과를 살펴보면 smartctl -a /dev/sda즉시 명확하지 않은 많은 정보를 볼 수 있었습니다.

# smartctl -a /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-4.15.0-32-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Crucial/Micron MX100/MX200/M5x0/M600 Client SSDs
Device Model:     Crucial_CT500MX200SSD4
Serial Number:    160311862C1C
LU WWN Device Id: 5 00a075 111862c1c
Firmware Version: MU03
User Capacity:    500,107,862,016 bytes [500 GB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    Solid State Device
Form Factor:      < 1.8 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-3 T13/2161-D revision 4
SATA Version is:  SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Mon Sep  3 10:49:49 2018 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x80) Offline data collection activity
                                        was never started.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                ( 1271) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        (   7) minutes.
Conveyance self-test routine
recommended polling time:        (   3) minutes.
SCT capabilities:              (0x0035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   000    Pre-fail  Always       -       0
  5 Reallocate_NAND_Blk_Cnt 0x0032   100   100   010    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       16446
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       44
171 Program_Fail_Count      0x0032   100   100   000    Old_age   Always       -       0
172 Erase_Fail_Count        0x0032   100   100   000    Old_age   Always       -       0
173 Ave_Block-Erase_Count   0x0032   094   094   000    Old_age   Always       -       139
174 Unexpect_Power_Loss_Ct  0x0032   100   100   000    Old_age   Always       -       29
180 Unused_Reserve_NAND_Blk 0x0033   000   000   000    Pre-fail  Always       -       5548
183 SATA_Interfac_Downshift 0x0032   100   100   000    Old_age   Always       -       0
184 Error_Correction_Count  0x0032   100   100   000    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0022   058   049   000    Old_age   Always       -       42 (Min/Max 23/51)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   100   100   000    Old_age   Always       -       0
202 Percent_Lifetime_Used   0x0030   094   094   001    Old_age   Offline      -       6
206 Write_Error_Rate        0x000e   100   100   000    Old_age   Always       -       0
210 Success_RAIN_Recov_Cnt  0x0032   100   100   000    Old_age   Always       -       0
246 Total_Host_Sector_Write 0x0032   100   100   000    Old_age   Always       -       15420692355
247 Host_Program_Page_Count 0x0032   100   100   000    Old_age   Always       -       481912759
248 Bckgnd_Program_Page_Cnt 0x0032   100   100   000    Old_age   Always       -       1753257160

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     16446         -
# 2  Short offline       Completed without error       00%     10532         -
# 3  Short offline       Completed without error       00%      8040         -
# 4  Vendor (0xff)       Completed without error       00%      3608         -
# 5  Vendor (0xff)       Completed without error       00%       597         -
# 6  Vendor (0xff)       Completed without error       00%       585         -
# 7  Vendor (0xff)       Completed without error       00%       520         -
# 8  Vendor (0xff)       Completed without error       00%       161         -
# 9  Vendor (0xff)       Completed without error       00%        98         -
#10  Vendor (0xff)       Completed without error       00%        65         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Completed [00% left] (57881389-57946924)
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

구체적으로 명확한 지침이 없습니다.

  • 실수
  • 테스트 이력

smartctl -a /dev/sdX수시로 분석을 실행하고 비정상적인 이벤트를 식별하는 것 외에 분석에 대한 모범 사례가 있습니까?

답변1

구성한 경우지능형 모니터링 도구이렇게 하면 이메일을 보낼 수 있고, 문제가 발견되면 이메일을 받게 됩니다.

이 외에도 오류와 로그가 smartctl출력에 표시됩니다. "Offline_Un Correctable" 필드를 먼저 살펴보는 경향이 있습니다. 0이 아닌 것은 드라이브가 아무 것도 할 수 없는 미디어에 결함이 있음을 의미하기 때문입니다(귀하의 경우 SSD의 경우 일반적으로 드라이브가 배터리가 방전되어 플래시 메모리를 교체할 수 없습니다). 다른 속성은 읽기 또는 쓰기 오류를 나타내지만 그 의미는 오류 원인에 따라 달라질 수 있습니다.

드라이브 오류는 오류 로그에도 기록됩니다.

SMART Error Log Version: 1
No Errors Logged

그리고 테스트 로그의 테스트 결과는 다음과 같습니다.

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%     16446         -
# 2  Short offline       Completed without error       00%     10532         -
# 3  Short offline       Completed without error       00%      8040         -
# 4  Vendor (0xff)       Completed without error       00%      3608         -
# 5  Vendor (0xff)       Completed without error       00%       597         -
# 6  Vendor (0xff)       Completed without error       00%       585         -
# 7  Vendor (0xff)       Completed without error       00%       520         -
# 8  Vendor (0xff)       Completed without error       00%       161         -
# 9  Vendor (0xff)       Completed without error       00%        98         -
#10  Vendor (0xff)       Completed without error       00%        65         -

여기에서는 테스트를 "오류 없이 완료"로 표시하고 해당 연령 필드를 드라이브의 현재 수명(테스트 계획에 따라 다름)과 너무 멀지 않게 표시하려고 합니다. 귀하의 경우 드라이브의 수명은 16446시간이며 방금 테스트를 완료했습니다. 또한 해당 시점에 일부 속성이 업데이트되므로 정기적으로 확장 프로그램의 오프라인 테스트를 검토하는 것이 좋습니다(예를 들어오프라인에서는 수정할 수 없습니다.)

smartctl -x나는 대신 을 사용하는 경향이 smartctl -a있으며 더 많은 정보를 표시합니다.

답변2

스마트 기술은 약 12년 전부터 디스크에 사용되기 시작하여 내부적으로 표면에 잠재적인 문제를 기록했습니다. 완전히 다른 기술을 기반으로 하는 SSD 디스크(이전에는 전기적으로 지울 수 있는 프로그래밍 가능 ROM으로 알려짐)를 사용하고 있습니다. 데이터는 디스크에 섹터라고 불리는 블록으로 기록되는 반면, SSD의 데이터는 더 큰 블록에 기록되며, 블록을 쓰기(실제로 프로그래밍)하려면 먼저 삭제해야 합니다. 블록을 지우면 블록 요소에 약간의 손상이 발생하므로 동일한 블록에 대한 쓰기 횟수가 제한되어 있으므로(SLC의 경우 약 100,000회, MLC는 약 100000배) 5000배, TLC는 약 300배)

음, 보고된 오류는 smartctl두 기본 기술 모두에 다른 영향을 미칩니다. 디스크에서 Current_Pending_Sector데이터 쓰기 불량(읽을 수 없음)을 나타내는 항목( ID 197)과 자기 표면 불량을 나타내는 Reallocated_sector_count항목 ID 5도 확인해야 합니다 ID 194 Temperature_Celsius. SSD에서는 수명 밖의 블록 수를 표시하기 ID 5위해 이름이 변경되었습니다 .Reallocate_NAND_Blk_Cnt

두 경우 모두 일부 불량 블록(섹터)이 존재한다고 해서 반드시 디스크가 손상되었다는 의미는 아닙니다. 문제는 불량 블록이 갑자기 많이 나타나는 것일 수도 있고, 불량 블록의 수가 나날이 증가하는 것일 수도 있습니다.

사용 목적(24x7 서버, 데스크톱, 비디오 레코더)에 맞는 좋은 브랜드와 종류를 신중하게 선택하고, 가능한 최상의 조건(온도를 낮추기 위한 팬, 충분한 전력)을 제공함으로써 디스크의 수명을 연장할 수 있습니다. , 엄격히 수평 또는 수직 위치).

SSD 디스크의 수명은 SLC(느리지만 더 좋음)를 선택하여 연장할 수 있습니다. 현재는 MLC만 구입할 수 있지만 심지어 TLC보다 오래 지속될 수도 있습니다. 불필요한 쓰기에 가능한 제한을 두십시오. 따라서 스왑(pagefile.sys)을 사용자 디렉터리(홈) 및 로그 파일로 디스크 외부로 이동해야 합니다. Linux에서는 noatime, nodiratime 마운트 옵션을 추가로 추가할 수 있습니다. 그리고 항상 백업을 하세요! 스마트폰을 정기적으로 확인하는 것이 도움이 될 수 있지만 손실된 데이터를 복구할 수 있는 방법은 없습니다.

관련 정보