손상된 Linux md RAID5 어레이를 복구하는 방법은 무엇입니까?

Question 1

먼저 디스크를 확인하고, 스마트 셀프 테스트를 실행해 보세요.

for i in a b c d; do
    smartctl -s on -t long /dev/sd$i
done

완료하는 데 몇 시간이 걸릴 수 있지만 몇 분마다 각 드라이브의 테스트 상태를 확인하십시오.

smartctl -l selftest /dev/sda

읽기 오류로 인해 디스크 상태가 불완전하다고 보고되면 해당 디스크는 md1 재조립에 안전하지 않은 것으로 간주되어야 합니다. 자체 테스트가 완료되면 어레이 재조립을 시작할 수 있습니다. 또는 특별히 주의를 기울이고 싶다면 계속하기 전에 디스크를 다른 컴퓨터로 옮기십시오(메모리/컨트롤러 등이 손상된 경우).

최근에 이와 비슷한 사례를 접했습니다. 드라이브 하나에 오류가 발생하여 이를 어레이에 다시 추가했지만 재구축 중에 드라이브 4개 중 3개에서 완전히 오류가 발생했습니다. /proc/mdadm의 내용은 귀하의 내용과 동일합니다(순서가 다를 수 있음).

md1 : inactive sdc2[2](S) sdd2[4](S) sdb2[1](S) sda2[0](S)

하지만 운이 좋아서 이것을 사용하여 배열을 재조립했습니다.

mdadm --assemble /dev/md1 --scan --force

제공하신 --examine 출력을 보면 다음과 같은 상황이 발생하고 있음을 알 수 있습니다. sdd2가 실패하여 이를 제거하고 다시 추가하여 재구축을 시도할 대체 드라이브가 되었습니다. 그러나 sda2 재구축이 실패하고 sdb2도 실패합니다. 따라서 이벤트 카운터는 어레이의 마지막 활성 드라이브인 sdc2 및 sdd2에서 더 큽니다(sdd는 재구축할 기회가 없었기 때문에 모든 드라이브 중에서 가장 오래되었습니다). 이벤트 카운터의 차이로 인해 --force가 필요합니다. 그래서 당신도 이것을 시도해 볼 수 있습니다

mdadm --assemble /dev/md1 /dev/sd[abc]2 --force

전체적으로 위의 명령이 실패하면 다음과 같이 배열을 다시 생성해야 한다고 생각합니다.

mdadm --create /dev/md1 --assume-clean -l5 -n4 -c64 /dev/sd[abc]2 missing

--create이 부분은 중요합니다. 이렇게 하면 missing어레이에 네 번째 드라이브를 추가하려고 하지 마십시오. 그러면 구축이 시작되고 데이터가 손실됩니다.. 누락된 드라이브가 있는 어레이를 생성해도 해당 내용은 변경되지 않으며 복사본을 얻을 수 있습니다.다른 곳에서(raid5는 raid1과 다르게 작동합니다.)

어레이를 시작할 수 없는 경우 여기에서 이 해결 방법을 시도해 보십시오(perl 스크립트).배열 다시 만들기

결국 어레이를 부팅하게 되면 파일 시스템이 깨끗하지 않고 손상될 수 있습니다. 재구축 중에 디스크 하나에 오류가 발생하면 다른 디스크에 쓰지 않고 어레이가 중지되고 정지될 수 있습니다. 이 경우 두 개의 디스크가 실패합니다.아마도시스템이 완료할 수 없는 쓰기 요청을 수행하고 있으므로 일부 데이터가 손실될 가능성이 있지만 이를 전혀 눈치채지 못할 가능성도 있습니다. :-)

편집: 몇 가지 설명을 추가했습니다.

Answer