디스크 교체 후에도 raidz2에서 읽기/쓰기/cksum 오류가 지속됨(Netapp DS4243)

디스크 교체 후에도 raidz2에서 읽기/쓰기/cksum 오류가 지속됨(Netapp DS4243)

예전에는 작동했지만 지금은 성능이 저하되어 다음과 같이 구성된 zfs 풀이 있습니다. 몇 주 동안 디스크를 교체하고 다시 교체하여 풀을 수정하려고 했지만 동일한 베이에서 동일한 문제가 다시 발생했습니다. .

몇 주 전

        NAME                        STATE     READ WRITE CKSUM
        zpool                       DEGRADED     0     0     0
          raidz2-0                  DEGRADED     0     0     0
            wwn-0x50000c900040b558  ONLINE       3   159     0
            wwn-0x50000c900040a134  ONLINE       0     0     0
            wwn-0x50000c900040f8b0  ONLINE       0     0     0
            wwn-0x50000c90003fd4c4  ONLINE       0     0     0
            wwn-0x50000c90003fe7fc  ONLINE       0     0     0
            wwn-0x50000c9000409f8c  ONLINE       0     0     0
            scsi-3500605ba010cb160  ONLINE       0     0     0
            wwn-0x50000c900015436c  ONLINE       0     0     0
            replacing-8             UNAVAIL      3 35.9K     0  insufficient replicas
              2597997485925153301   FAULTED      0     0     0  was /dev/sdl1
              sdaa                  FAULTED     20 27.0K     0  corrupted data
              sdaa                  FAULTED      3 9.27K     0  too many errors
            wwn-0x50000c900040a0a0  ONLINE   5.74K 78.3K     0
            wwn-0x50000c90004104fc  ONLINE       0     0     0
            wwn-0x50000c90003fc900  ONLINE       0     0     0
          raidz2-1                  ONLINE       0     0     0
            wwn-0x500605ba00776c40  ONLINE       3     2     2
            wwn-0x500605ba00a89b18  ONLINE       0     0     0
            wwn-0x50000c90003fc944  ONLINE       0     0     0
            wwn-0x50000c90003fbdf0  ONLINE       0     0     0
            wwn-0x50000c90003fbdf4  ONLINE       0     0     0
            wwn-0x50000c9000409f24  ONLINE       0     0     0
            wwn-0x500605ba0108354c  ONLINE       0     0     0
            wwn-0x500605ba00bfceec  ONLINE       0     0     0
            wwn-0x50000c900040ac94  ONLINE       0     0     0
            wwn-0x50000c900040f968  ONLINE       0     0     0
            wwn-0x50000c90003fbe10  ONLINE       0     0     0
            wwn-0x50000c900040a828  ONLINE       0     0     0
        special
          mirror-2                  ONLINE       0     0     0
            wwn-0x5001b444a7ae7a55  ONLINE       0     0     0
            wwn-0x5001b444a7ae7a57  ONLINE       0     0     0

추가 디스크 교체 후 재동기화 및 재설정:

        NAME                                     STATE     READ WRITE CKSUM
        zpool                                    DEGRADED     0     0     0
          raidz2-0                               DEGRADED     0     0     0
            wwn-0x50000c900040b558               ONLINE       0     0     0
            wwn-0x50000c900040a134               ONLINE       0     0     0
            wwn-0x50000c900040f8b0               ONLINE       0     0     0
            wwn-0x50000c90003fd4c4               ONLINE       0     0     0
            wwn-0x50000c90003fe7fc               ONLINE       0     0     0
            wwn-0x50000c9000409f8c               ONLINE       0     0     0
            scsi-3500605ba010cb160               ONLINE       0     0     0
            wwn-0x50000c900015436c               ONLINE       0     0     0
            usb-LITEON_UITRA1_00000000006BF-0:0  DEGRADED     0     0 18.0K  too many errors  (resilvering)
            replacing-9                          DEGRADED    52  318K 2.01K
              old                                OFFLINE      0     0     0  block size: 512B configured, 4096B native
              wwn-0x50000c900040a0a0             ONLINE      17 1.58M     0  block size: 512B configured, 4096B native  (resilvering)
            wwn-0x50000c90004104fc               ONLINE       0     0     0
            wwn-0x50000c90003fc900               ONLINE       0     0     0
          raidz2-1                               ONLINE       0     0     0
            wwn-0x500605ba00776c40               ONLINE       0     0     0
            wwn-0x500605ba00a89b18               ONLINE       0     0     0
            wwn-0x50000c90003fc944               ONLINE       0     0     0
            wwn-0x50000c90003fbdf0               ONLINE       0     0     0
            wwn-0x50000c90003fbdf4               ONLINE       0     0     0
            wwn-0x50000c9000409f24               ONLINE       0     0     0
            wwn-0x500605ba0108354c               ONLINE       0     0     0
            wwn-0x500605ba00bfceec               ONLINE       0     0     0
            wwn-0x50000c900040ac94               ONLINE       0     0     0
            wwn-0x50000c900040f968               ONLINE       0     0     0
            wwn-0x50000c90003fbe10               ONLINE       0     0     0
            wwn-0x50000c900040a828               ONLINE       0     0     0
        special
          mirror-2                               ONLINE       0     0     0
            wwn-0x5001b444a7ae7a55               ONLINE       0     0     0
            wwn-0x5001b444a7ae7a57               ONLINE       0     0     0

errors: No known data errors

24축 Netapp DS4243이며 오류는 주로 문제가 있는 세 개의 드라이브 베이 중 하나와 관련이 있습니다.

문제 베이 질문 시험
USB-LITEON_UITRA1_00000000006BF-0:0 몇 분 이상 이 베이에 온라인 상태로 남아 있는 디스크가 없어 USB 인클로저로 교체되었습니다. 새로운 디스크를 포함하여 4개의 디스크가 테스트 및 재동기화에 사용되었습니다. 문제가 지속되어 USB 인클로저로 교체했는데, 작동했지만 USB 인클로저의 디스크로 인해 높은 오류 수가 보고되었지만 디스크가 HD Sentinel로 테스트되었기 때문에 이상했습니다.
wwn-0x50000c900040a0a0 일반적으로 문제가 없지만 몇 차례 오프라인 상태였으며 재동기화 작업이 끝나면 불안정한 읽기 및 쓰기 오류가 발생했습니다. 테스트 및 재동기화에는 새 디스크를 포함하여 디스크 3개를 사용합니다. 문제는 여전히 존재합니다
wwn-0x50000c900040b558 불안정한 읽기 및 쓰기 오류가 있는 경우 오프라인으로 한 번만 발생하지만 wwn-0x50000c900040a0a0 미만입니다. 테스트 및 재동기화를 위해 두 개의 서로 다른 디스크를 사용합니다. 문제는 여전히 존재합니다

문제 베이는 물리적으로 인접하지 않고 무작위로 배치됩니다.(https://i.stack.imgur.com/GkrGG.jpg). 이러한 베이는 Netapp 장치 내부에 연결됩니다. 간단히 드라이브를 핫스왑 베이에 연결하고 SAS HD 케이블을 사용하여 SAS HBA 어댑터에 직접 연결합니다. 유일한 물리적 작동은 Netapp이 과거에 IOM6 컨트롤러를 설치했다고 생각한다는 것입니다.

wwn-0x50000c900040a0a0 및 wwn-0x50000c900040b558에 대한 smartctl 통계에는 모두 디스크 오류가 표시되지 않지만 wwn-0x50000c900040a0a0의 "보통 오류 개수" 값은 28입니다. 제가 수집한 데이터는 인터페이스 오류 가능성에 대한 힌트를 제공합니다. 이유를 알았습니다.

불행하게도 이것은 잃을 여유가 없는 풀이고 영원히 다시 동기화할 필요가 없습니다(현재는 새 디스크로만 다시 동기화하는데 여전히 오류가 발생합니다).

업데이트 - 수정 사항을 찾았나요? ? ? 놀랍게도 기존 Emulex SATA->SAS 인터포저 보드를 해당 LSI 보드로 교체하여 영향을 받은 베이의 문제가 해결되었습니다.

또한 모두 관련되어 있을 수 있으므로 더 두꺼운 와이어 게이지가 있는 새로운 HD SAS 케이블이 있지만 지금까지는 매우 좋습니다.

관련 정보