mdadm RAID5에 불량 섹터와 블록이 있음

mdadm RAID5에 불량 섹터와 블록이 있음

Ubuntu 16.04에서 mdadm을 사용하여 4 디스크 RAID5를 설정했습니다.

심천개발은행: 좋음

sdc: 불량 섹터 8개, 보류 섹터 8개, SMART당 보고된 오류 4개

sdd: mdadm --examine에 따르면 불량 블록이 있습니다.

sde: 알았어

나는 순진했고 시스템이 나에게 디스크 오류를 알려줄 것이라고 생각했습니다. "mdadm --examine /dev/sdd"에 따른 마지막 업데이트가 11월이었기 때문에 그 때 RAID에서 제거된 것으로 알고 있습니다. 저는 7개월 동안 인지도 못한 채 저하 모드로 실행했습니다. 지난 주말까지 sdc를 실패로 표시했고 디스크 부족으로 인해 RAID가 비활성화되었습니다.

SMART(smartctl --xall)는 모든 디스크가 통과했다고 말하지만 sdc에서 수정 불가능한 섹터 8개와 수정 불가능한 오류 4개를 보고합니다. 그래서 디스크는 꽤 건강합니다.

sdd의 이벤트 수는 분명히 훨씬 적지만 sdc의 이벤트 수는 63개에 불과합니다. 그래서 어셈블리에서 세 개의 디스크를 사용하도록 강제했고 모든 데이터에 액세스할 수 있었습니다. 물론 손상된 파일도 있을 것 같지만 이 데이터에는 큰 문제가 되지 않습니다.

그런 다음 "mdadm /dev/md0 -a /dev/sdd"를 사용하여 네 번째 디스크를 추가하고 복구를 시작했지만 sdc의 불량 섹터에 부딪혀 재할당할 수 없었고(성능이 저하되었기 때문에 그런 것 같아요?) mdadm에서 플래그를 지정했습니다. 다시 오류가 발생하여 시작한 곳으로 돌아왔습니다.

어레이에 불량 블록이 있는 디스크를 유지하는 방법에 대한 좋은 지침을 여기에서 찾았습니다. https://stephane.lesimple.fr/blog/how-to-securely-keep-a-hard-drive-with-bad-blocks-in-a-raid-array/

그러나 나는 또 다른 실수를 저질렀습니다. Linux를 계속 사용할지 확신이 없었기 때문에 Windows를 실행하려는 경우를 대비해 어레이를 NTFS로 포맷했습니다. 이는 fsck 또는 debugfs와 같은 fs 명령이 작동하지 않음을 의미합니다.

chkdsk가 도움이 될 수 있지만 Windows를 설치해야 하며 제대로 작동할지 확신하지 않는 한 고통을 겪고 싶지 않습니다. 기존 Linux 유틸리티를 사용하여 이를 수행할 수 있는 방법이 있었으면 좋겠습니다. kern.log의 섹터가 있지만 이상하게도 "수정할 수 없는 읽기 오류" 메시지와 함께 10개의 섹터가 나열되어 있는데 이는 SMART에서 보고한 8개 섹터보다 많습니다. 이러한 섹터를 논리 블록으로 변환할 수 있으면 dd를 사용하여 0으로 만들 수 있습니다.

새 드라이브를 구입할 수 있도록 중요한 모든 것을 백업했지만 일부 불량 섹터만을 위해 4TB 드라이브를 버리는 것은 아깝습니다. sdd에는 배드섹터가 없기 때문에 무슨 문제가 있는지조차 모르겠습니다.

참고: RAID가 4번째 디스크를 추가한 후 복구를 시도할 때 kern.log에 수백 개의 "실패한 명령: READ FPDMA QUEUED" 메시지가 있으며, 이를 검색해 보면 내 SATA 케이블이나 전원 공급 장치가 불량일 수 있음을 알 수 있습니다. 나는 PSU 오류를 겪은 적이 있지만 만약 그렇다면 하드 드라이브 오류가 발생한 것은 이번이 처음이 될 것입니다.

답변1

ddrescue는 불량 섹터가 있는 드라이브에서 11월에 어레이에서 비활성화된 드라이브로 성공적으로 복사했지만 전원 공급 장치를 교체한 후에야 가능했습니다. /var/log/kern.log에서 수백 개의 WRITE FDMA QUEUE 명령이 실패한 것을 확인하여 최신 시스템에서 PSU를 제거하고 이식 후 ddrescue가 제대로 작동했습니다. 4TB 디스크는 약 10시간이 걸립니다. 총 80kb에 달하는 15개의 오류가 보고되었습니다. 완료되면 sdd는 sdc에서 기대할 수 있는 것과 같아 보였으므로 sdb sdd 및 sde로 어레이를 조립한 다음 sdd를 추가하고 재개하자 오류 없이 완료되었습니다. 실제로 SMART는 더 이상 sdd의 불량 섹터를 보고하지 않습니다. 이러한 섹터에 쓰기 때문에 디스크가 해당 섹터를 재할당하기 때문이라고 생각합니다. 다 좋습니다. 새 PSU를 주문하면 됩니다.

관련 정보