단일 드라이브 읽기 오류로 인한 소프트웨어 RAID-1 커널 오류

Question

1) 재배열된 모든 섹터가 정확히 8개로 떨어져 있는 이유는 무엇입니까?

이러한 섹터 수의 격차는 예상할 수 있는 일이지만, 문제는 이러한 격차가 얼마나 큰지(4k 이상)입니다. 8x 512바이트는 4k이며, 이는 대부분의 파일 시스템에서 사용되는 섹터 크기입니다. 따라서 파일 시스템은 RAID에서 4k 읽기를 요청할 수 있으며 RAID는 /dev/sdb해당 데이터를 요청할 것입니다. 첫 번째 섹터(로그에 표시되는 섹터 번호)에서 읽기가 실패하고 RAID가 전환되어 /dev/sda거기에서 4k를 제공합니다. 그런 다음 파일 시스템은 다음 4k를 읽고 /dev/sdb섹터 번호 +8로 돌아가도록 요청하지만 다시 실패합니다. 이는 다시 로그에 표시됩니다.

2) 커널이 응답하지 않고 재부팅이 필요한 이유는 무엇입니까?

정상적인 상황에서는 그런 일이 일어나서는 안 됩니다. 문제는 재분배 사건이 받을 수 있는 비용 중 가장 비싸다는 점이다. 실패한 각 읽기는 다른 디스크로 리디렉션되어야 하며 원본 디스크에 다시 작성되어야 합니다. 동시에 로그 파일이 가득 차면 새로운 쓰기 요청이 발생하여 다시 재할당되어야 합니다. 이 경우 디스크를 완전히 제거하는 것이 더 저렴할 것입니다.

또한 나머지 하드웨어(예: SATA 컨트롤러)가 고장난 드라이브를 어떻게 처리하는지에 대한 문제이기도 합니다. 컨트롤러 자체에 문제가 있으면 성능이 더욱 저하될 수 있습니다.

로그 항목이 없으면 정확히 무슨 일이 일어났는지 말하기가 어렵습니다. 이는 Linux 커널의 약점이며, 상황이 정말 나빠지면 마지막 메시지를 보관할 수 있는 쉬운 해결책이 없습니다.

3) 공격대 재동기화 완료 후 23시간 만에 읽을 수 없고 오프라인으로 수정할 수 없는 개수가 재설정되는 이유는 무엇입니까?

일부 값은 오프라인 데이터 수집(업데이트된 오프라인 열)을 수행할 때만 업데이트되므로 시간이 다소 걸릴 수 있습니다. 이 작업을 자동으로 수행하도록 설정된 경우(예: 4시간마다) 디스크에 따라 다릅니다. 디스크에 의존하고 싶지 않다면 smartmontools를 사용하여 설정해야 합니다.

Answer 1