심각한 ZFS 문제를 디버깅/해결하는 방법은 무엇입니까?

심각한 ZFS 문제를 디버깅/해결하는 방법은 무엇입니까?

홈 데이터 서버를 구축하고 드라이브 자체를 제외한 거의 모든 부품을 교체했습니다.

CentOS에서 소프트웨어 RAID를 사용하기 시작하면서 2년 동안 5개의 드라이브 시리즈가 RAID 0에서 완벽하게 실행되었습니다. 이는 RAID를 실행하는 가장 위험한 방법입니다. 나머지 5개 드라이브는 처음 5개와 동일하며 동일한 배치에 속하며 항상 RAID 5 구성 형태로 처음에는 소프트웨어 RAID를 사용하고 전체 재구축 후에는 ZFS를 사용합니다. 몇 달 동안 흠 잡을 데 없는 서비스를 받은 후, 세트는 정기적으로 포기하고 다소 놀라운 방식으로 오프라인 상태가 되었습니다.

드라이브는 외부 인클로저에 내장되어 있으며 처음에는 멀티플렉싱된 eSATA를 통해 연결되었고 현재는 멀티플렉싱된 USB3을 통해 연결됩니다.

처음에는 문제가 값싼 섀시/멀티플렉서에 있을 수 있다고 생각하여 두 섀시 간에 RAID 0 및 RAID 5 어레이의 드라이브 5개를 교체했습니다. RAID 0은 계속해서 완벽하게 실행되고 RAID 5에서는 이러한 주기적인 중단이 계속 발생합니다.

첫 번째 힌트는 문제가 그룹의 드라이브 중 하나에 있다는 것이었지만 5개 드라이브 중 다른 드라이브보다 더 많은 문제가 있는 드라이브는 없었습니다. 그래서 RAID 5에 케이스 작동을 일으키는 이상한 전원 요구 사항이 있는지 궁금해서 다른 케이스에 투자했습니다. 이번에는 USB 3 연결 박스입니다. USB3은 eSATA보다 훨씬 더 공격적입니다.

이런 식으로 이 방식은 현재까지 6개월 동안 안정적으로 운영되고 있다. 터미널에서 5개의 연속 메시지를 받았습니다:

WARNING: Your hard drive is failing
Device: /dev/sda [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdb [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdc [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sdd [SAT], unable to open device
WARNING: Your hard drive is failing
Device: /dev/sde [SAT], unable to open device

상자, 멀티플렉서 연결, PCIe eSATA 확장 보드를 제거했는데 문제는 다음과 같습니다.~ 해야 하다드라이브와 함께 있지만 모두 버리지 않는 한 디버깅 방법을 모르겠습니다. 처음 발생했을 때는 zpool status모든 드라이브에서 거의 동일한 오류가 발생했고, 이상하게도 모두 알파벳순으로 정렬되어 있었습니다.

zpool을 지우고 다시 동기화했으며 잠시 동안 모든 것이 괜찮았다가 응답을 멈췄습니다. 이제 spool status터미널이 실제로 정지되고 Ctrl+C의 영향을 받지 않습니다.

새로운 정보:

/dev/sda-e자발적으로 이름을 으로 바꾸었고 /dev/sda1-e1읽거나 쓰는 것이 없기 때문에 드라이브 상자를 재부팅했습니다. 장치가 사라졌다가 예상대로 다시 나타나지만 1이름에는 여전히 접미사가 있습니다.

업데이트: (2017년 6월 3일)

사용오라클 문서나는 그것을 failmode다음과 같이 설정하려고 시도했습니다 continue.

zpool set failmode=continue tank

이 모드에서는 주기적으로 계속해서

WARNING: Your hard drive is failing
Device: /dev/sda [SAT], unable to open device

그리고 어레이의 드라이브는 모두 쓰기 오류를 생성합니다.

   NAME                        STATE     READ WRITE CKSUM
    tank                        ONLINE       0    16    59
      raidz1-0                  ONLINE       0    32   118
        ata-WDC_WDC_WD10-68...  ONLINE       0    14     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    12     0
        sda                     ONLINE       0    12     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    12     0
        ata-WDC_WDC_WD10-68...  ONLINE       0    14     0

errors: 67 data errors, use '-v' for a list

그러나 이 시점에서는 최소한 zpool이 살아 있고 터미널을 무기한 정지시키거나 다른 풀을 정지시키지 않습니다.

흥미롭게도 모든 드라이브에서 쓰기 작업에서만 오류가 발생했으며 오류 수가 매우 동일했습니다.

답변1

메시지가 전송되기 때문에스마트 알림시스템이 장치에 액세스할 수 없습니다. 권장합니다.조사첫 번째는 하드웨어 문제처럼 보이는 드라이브 문제입니다.

zfs이에 대해 우리가 할 수 있는 일은 아무것도 없습니다. 결함이 있는 하드 드라이브(또는 케이블이나 컨트롤러)를 교체한 후 zfs풀을 다시 복원할 수 있습니다.

관련 정보