Linux의 ZFS - 장치 오류 후 예기치 않은 동작

Linux의 ZFS - 장치 오류 후 예기치 않은 동작

저는 ZFS 스토리지 풀(RAID Z3)을 갖춘 Debian 서버를 유지 관리하고 있습니다. 최근 ZFS는 두 개의 디스크 오류를 동시에 보고했습니다.

ZFS has detected that a device was removed.

 impact: Fault tolerance of the pool may be compromised.
    eid: 138
  class: statechange
  state: REMOVED
   host: serres-west-wing
   time: 2021-04-30 01:30:15+0300
  vpath: /dev/disk/by-vdev/d0-part1
  vguid: 0x6622AF6B1929E199
   pool: 0x0964CF6A3748D7A9
ZFS has detected that a device was removed.

 impact: Fault tolerance of the pool may be compromised.
    eid: 140
  class: statechange
  state: REMOVED
   host: serres-west-wing
   time: 2021-04-30 01:30:15+0300
  vpath: /dev/disk/by-vdev/d1-part1
  vguid: 0xD48BA6B066788199
   pool: 0x0964CF6A3748D7A9

이러한 메시지가 생성된 후 상시 대기가 활성화되고 재동기화가 즉시 시작됩니다. 재동기화 후 풀 상태는 다음과 같습니다.

ZFS has finished a resilver:

   eid: 167
 class: resilver_finish
  host: serres-west-wing
  time: 2021-04-30 02:15:03+0300
  pool: datapool
 state: ONLINE
  scan: resilvered 132G in 00:44:41 with 0 errors on Fri Apr 30 02:15:03 2021
config:

        NAME               STATE     READ WRITE CKSUM
        datapool           ONLINE       0     0     0
          raidz2-0         ONLINE       0     0     0
            spare-0        ONLINE       0     0     0
              d0-part1     ONLINE       0     0     0
              hs-d0-part1  ONLINE       0     0     0
            d1-part1       ONLINE       0     0     0
            d2-part1       ONLINE       0     0     0
            d3-part1       ONLINE       0     0     0
            d4-part1       ONLINE       0     0     0
        logs
          mirror-1         ONLINE       0     0     0
            zil-d0-part1   ONLINE       0     0     0
            zil-d1-part1   ONLINE       0     0     0
        cache
          l2arc-d0-part2   ONLINE       0     0     0
          l2arc-d1-part2   ONLINE       0     0     0
        spares
          hs-d0-part1      INUSE     currently in use

errors: No known data errors

디스크가 연결되어 있고 제대로 작동하는 d0-part1것 같습니다 .d1-part1

디스크 성능 저하와 무관한 오류인가요? 두 작업 디스크에 동시에 오류가 발생할 가능성은 거의 없습니다. 핫 스페어를 비활성화해도 안전합니까?

답변1

디스크 연결 끊김은 전원 문제로 인해 발생한 것 같습니다. 내 컴퓨터에서 UPS를 업그레이드한 후에는 문제가 없었습니다. 핫 스페어를 비활성화했습니다.

zpool detach datapool hs-d0-part1

그런 다음 풀을 다시 실버 처리했습니다.

zpool scrud datapool

풀을 원래 상태로 복원합니다.

관련 정보