불량 섹터를 처리하는 RAID 6 및 XFS

2024-5-27 • tag-icon

RAID 6의 Adaptec 71685에 7개의 2TB 드라이브가 연결되어 있습니다.

dmesg 메시지에 불량 섹터가 있다고 표시됩니다.

2321236720 2321236728 2321236760 2321236792 2321236824 2321236856 2321236864 2329211680 2329212192 2329212704 2329212872 329213384 2329225888 2329226400 2329226408 2329226920 2329227432 2701810832 2701811344 2701811856 2701812368

xfs_repair -L /dev/sdc1

파일 시스템을 복구했지만 RAID에 더 많은 데이터를 썼을 때 오류가 다시 나타났습니다.

[  703.888787] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 42 f8 00 00 00 80 00 00
[  704.542375] sd 4:0:0:0: [sdc] tag#2 CDB: Read(16) 88 00 00 00 00 00 8a 5b 42 f8 00 00 00 10 00 00
[  704.543095] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 08 00 00 00 10 00 00
[  704.543791] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 18 00 00 00 10 00 00
[  704.544477] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 28 00 00 00 10 00 00
[  704.668617] sd 4:0:0:0: [sdc] tag#1 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 38 00 00 00 10 00 00
[  704.669118] sd 4:0:0:0: [sdc] tag#1 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 48 00 00 00 10 00 00
[  704.669558] sd 4:0:0:0: [sdc] tag#1 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 58 00 00 00 10 00 00
[  704.672910] sd 4:0:0:0: [sdc] tag#1 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 68 00 00 00 10 00 00
[  711.364409] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 42 f8 00 00 00 08 00 00
[  711.365047] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 00 00 00 00 08 00 00
[  711.365633] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 08 00 00 00 08 00 00
[  711.366210] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 10 00 00 00 08 00 00
[  711.366704] sd 4:0:0:0: [sdc] tag#0 CDB: Read(16) 88 00 00 00 00 00 8a 5b 43 18 00 00 00 08 00 00

Adaptec 71685에서 수리 확인을 시도했는데 모든 것이 정상인 것으로 나타났습니다.

몇 테라바이트의 데이터가 있는데 속도가 느리기 때문에 클라우드 백업에서 다시 다운로드하고 싶지 않습니다.

불량 섹터가 chkdsk 스타일로 숨겨져 있는지는 상관하지 않습니다. 해당 섹터가 어떤 하드 드라이브에 있는지 안다면 Adaptec 내장 도구를 사용할 수 있지만 7개 드라이브를 모두 검색하는 데 속도가 느려질 것입니다.

Adaptec 컨트롤러의 SMART에는 몇 가지(최대 24개)의 CRC 오류만 표시되었으며 7개 드라이브의 다른 모든 오류 표시기는 0이었습니다. 여러 드라이브에서 명령이 중단되었지만 가장 높은 숫자는 581이며 증가하지 않습니다.

나는 badblocks -b 65536 -s -v -o /badblocks.txt /dev/sdc1을 실행하기로 결정했습니다.

기본 블록 크기 1024는 32비트 정수가 처리할 수 있는 것보다 더 많은 블록이 있음을 의미하므로 65536을 사용했습니다.

14.14%는 140개의 오류를 주장했습니다. 이 목록을 xfs에 어떻게 알릴 수 있나요? 어떻게든 Adaptec 71685가 이러한 오류를 처리하도록 강제할 수 있습니까?

관련 정보