mdadm 실패는 명시적인 상태입니까?

Question 1

아직 최종 단계는 아닙니다. 복구 장치를 사용해 볼 수 있습니다 --re-add. 실패한 모든 장치를 자동으로 다시 추가하는 변형도 있습니다.

mdadm --re-add /dev/md1 faulty

커널 로그는 드라이브가 실패로 표시된 이유를 알려줍니다. SMART 상태에 UDMA CRC 오류가 있는 것 같습니다. 다음 명령을 사용하여 드라이브의 확장된 오류 로그를 볼 수도 있습니다.

smartctl -x /dev/sde

이는 오류의 성격을 나타내야 합니다.

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

(내 SMART 테스트 드라이브 중 하나에서).

Answer

아직 최종 단계는 아닙니다. 복구 장치를 사용해 볼 수 있습니다 --re-add. 실패한 모든 장치를 자동으로 다시 추가하는 변형도 있습니다.

mdadm --re-add /dev/md1 faulty

커널 로그는 드라이브가 실패로 표시된 이유를 알려줍니다. SMART 상태에 UDMA CRC 오류가 있는 것 같습니다. 다음 명령을 사용하여 드라이브의 확장된 오류 로그를 볼 수도 있습니다.

smartctl -x /dev/sde

이는 오류의 성격을 나타내야 합니다.

Error 10 [9] occurred at disk power-on lifetime: 31192 hours (1299 days + 16 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER -- ST COUNT  LBA_48  LH LM LL DV DC
  -- -- -- == -- == == == -- -- -- -- --
  40 -- 51 00 00 00 00 73 30 a5 58 40 00  Error: UNC at LBA = 0x7330a558 = 1932567896

  Commands leading to the command that caused the error were:
  CR FEATR COUNT  LBA_48  LH LM LL DV DC  Powered_Up_Time  Command/Feature_Name
  -- == -- == -- == == == -- -- -- -- --  ---------------  --------------------
  60 05 00 00 e0 00 00 73 30 a1 00 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 00 08 00 d8 00 00 03 d3 aa c0 40 08 13d+02:07:12.334  READ FPDMA QUEUED
  60 05 00 00 d0 00 00 73 30 9c 00 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 00 08 00 c8 00 00 03 d3 a9 90 40 08 13d+02:07:12.327  READ FPDMA QUEUED
  60 05 00 00 c0 00 00 73 30 97 00 40 08 13d+02:07:12.321  READ FPDMA QUEUED

(내 SMART 테스트 드라이브 중 하나에서).

Question 2

fail수정 불가능한 읽기 오류(UCE)로 인해 mdadm이 드라이브를 편집했을 수 있습니다. 커널 로그에서 관련 정보를 검색할 수 있습니다( grep about 시도 sde).

즉, 이는 명확한 상태가 아닙니다. 오류는 고속 쓰기 또는 손상된 케이블을 포함한 여러 가지 일시적인 요인으로 인해 발생할 수 있습니다.

가장 좋은 방법은 하드 드라이브 제조업체의 도구를 사용하여 분석하고 수리하는 것입니다. 그러나 최근 HDD에서는 다음 단계를 시도해 볼 수 있습니다. 저는 지난 몇 년 동안 이 단계를 성공적으로 사용해 왔으며 아직 생산 중인 일부 항목을 50,000시간 이상 복원했습니다. 드라이브 중:

고지 사항: 이 명령을 사용하면 /dev/sde 드라이브의 모든 데이터가 손실됩니다!

SMART 장기 테스트를 시작하세요.smartctl -t long /dev/sde
모든 드라이브를 0으로 지우기: ( dd if=/dev/zero of=/dev/sde이것은 복구 루틴 중에 실제로 많은 HDD 제조업체 도구가 수행하는 작업입니다.)
드라이브를 다시 파티션하세요
드라이브를 어레이에 다시 추가

이상적으로 [1] 지점은 섹터가 실패하는 지점이어야 하며 [2] 지점은 HDD 논리가 (1) "불량" 섹터를 확실히 불량으로 표시하고 대체 섹터를 찾거나 (2) 복원하는 데 도움이 되어야 합니다. 완전한 손상으로부터 해당 부문.

Answer