RAID5 멤버에서 IO 오류가 발생했습니다. 불량 블록이 발생하면 어떻게 해야 합니까?

2024-5-18 • tag-icon

RAID5 멤버에서 IO 오류가 발생했습니다. 불량 블록이 발생하면 어떻게 해야 합니까?

최근 3개 디스크 fakeRAID 어레이의 RAID5 구성원 중 하나에서 IO 오류가 발생했습니다. 당시에는 메시지가 하나뿐이었기 때문에 이를 인지하지 못했기 /var/log/kern.log때문에 잠시 동안 해당 파티션에서 머신을 계속 실행했습니다.

BIOS/인텔 RAID 관리자는 문제를 발견하지 못했지만 파티션에서 부팅하기로 선택했을 때 /읽기 전용으로 마운트되었습니다.

이제 복구 파티션에서 부팅하고 e2fsck -c -y해당 파티션에서 실행 중입니다. "다중 선언된 블록", "연결되지 않은 inodes", "그룹 #xxx에 대한 사용 가능한 inode 개수가 잘못됨" " 등을 포함한 많은 오류가 발생합니다. 또한 dmraid에서 IO 오류를 재현하여 kern.log어레이 성능이 저하되었으며 이제 어느 드라이브에 오류가 발생했는지 쉽게 알 수 있습니다.

이제 위험한 운전은 어떻게 해야 할까요? RMA를 일찍 받으면 5일 정도 걸리기 때문에 그동안 실행 중인 머신이 필요하고 RAID5 볼륨이 저하되는 것은 좋은 소식이 아닙니다!

내가 본 메시지는 dmesg다음과 같습니다.

ata3.00: exception Emask 0x10 SAct 0x1 SErr 0x280100 action 0x6 frozen
ata3.00: irq_stat 0x08000000, interface fatal error
ata3: SError: { UnrecovData 10B8B BadCRC }
ata3.00: failed command: READ FPDMA QUEUED
ata3.00: cmd 60/00:00:00:0b:0c/01:00:14:00:00/40 tag 0 ncq 131072 in
         res 40/00:04:00:0b:0c/00:00:14:00:00/40 Emask 0x10 (ATA bus error)
ata3.00: status: { DRDY }
ata3: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3.00: configured for UDMA/133
sd 2:0:0:0: [sdb]
Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 2:0:0:0: [sdb]
Sense Key : Aborted Command [current] [descriptor]
Descriptor sense data with sense descriptors (in hex):
        72 0b 00 00 00 00 00 0c 00 0a 80 00 00 00 00 00
        14 0c 0b 00
sd 2:0:0:0: [sdb]
Add. Sense: No additional sense information
sd 2:0:0:0: [sdb] CDB:
Read(10): 28 00 14 0c 0b 00 00 01 00 00
end_request: I/O error, dev sdb, sector 336333568
ata3: EH complete
device-mapper: dm-raid45: CRITICAL: io error on device /dev/sdb in region=336329728; DEGRADING RAID set
device-mapper: dm-raid45: further device error messages suppressed

위의 오류를 토대로 dmesg드라이브의 특정 영역만 불량이라고 생각하는 것이 맞습니까? 그렇다면 이러한 불량 블록을 피하면서 드라이브를 계속 사용할 수 있습니까? 나는 교체품이 도착할 때까지 드라이브를 포맷하고 그 위에 어레이를 재구축하는 경향이 있습니다. 이것이 나쁜 생각인가요?

또한 SMART 테스트는 모든 RAID 디스크에서 제대로 작동하는 것 같습니다...

답변1

RMA만 기다리면 됩니다. 어레이를 다시 포맷하고 재구축하려고 하면 아무 이유 없이 두 개의 양호한 디스크에 추가 스트레스를 가하게 될 위험이 있습니다. 서버인 경우 새 디스크가 도착할 때까지 공기 순환이 가능하도록 디스크를 그대로 두십시오.

답변1

관련 정보