md/linux RAID가 고장난 드라이브를 올바르게 보상하는 경우 무엇을 봐야 합니까?

md/linux RAID가 고장난 드라이브를 올바르게 보상하는 경우 무엇을 봐야 합니까?

하위 시스템이 md저하된 상태에서 실행 중임을 나타내는 메시지(또는 다음과 같은 드라이브 오류에 성공적으로 대응했음을 나타낼 수 있는 기타 메시지)를 syslog/systemd-journal에 출력 합니까?여기에 힌트를 주세요)?

sd예를 들어, 다음과 같은 지침 에 대해서는 오류가 많이 표시되지만 Unrecovered read error"대체 위치에서 재시도 성공"과 같은 내용은 표시되지 않습니다. 어쩌면 아무 소식도 없는 것이 좋은 소식일까요?

과거에는 이미징 소프트웨어/하드웨어가 장치의 성능이 저하되거나 주의가 필요한 시기를 나타내는 시스템 로그 항목을 생성했습니다. md이러지 마세요 ?

배경: 문제의 시스템이 배포되었으며 원격으로 모니터링되고 있습니다(syslog/log 메시지를 통해 mdadm현재로서는 어떤 종류의 대화형 명령/액세스도 사용할 수 없습니다).

답변1

두 개의 라운드 로빈 장치로 구축된 RAID 1 어레이에 대해 빠른 테스트를 수행했습니다.

dd bs=1M count=100 if=/dev/zero >/tmp/0.img
cp /tmp/0.img /tmp/1.img
i0=$(losetup --show --find /tmp/0.img); echo $i0
i1=$(losetup --show --find /tmp/1.img); echo $i1
mdadm --create /dev/md99 --metadata default --level 1 --raid-devices 2 $i0 $i1

절반을 잘못 설정함

mdadm --manage /dev/md99 --set-faulty $i1    # For me, $i1=/dev/loop1

커널(및 기타 관련 RAID1 메시지)에서 이것을 제공합니다.

Oct 6 17:36:10 pi kernel: [4087450.030438] md/raid1:md99: Disk failure on loop1, disabling device
Oct 6 17:36:10 pi kernel: [4087450.030438] md/raid1:md99: Operation continuing on 1 devices.

관련 정보