zpool의 드라이브 하나에 결함이 있는 것으로 의심되지만 드라이브가 4개 표시됩니까?

zpool의 드라이브 하나에 결함이 있는 것으로 의심되지만 드라이브가 4개 표시됩니까?

나와 내 친구들을 위해 서버가 운영되고 있습니다. 우리는 Ubuntu 18.04 LTS 서버를 사용하여 기본 부팅 드라이브에서 게임을 호스팅하고 RAIDZ2 풀을 사용하여 해당 게임, 음악, 영화 등의 백업을 저장합니다.

매주에서 2주마다 잘못된 풀과 많은 읽기/쓰기 오류가 발생합니다.

me@server:/$ zpool status NAS
pool: NAS
state: ONLINE
status: One or more devices are faulted in response to IO failures.
action: Make sure the affected devices are connected, then run 'zpool 
clear'.
see: http://zfsonlinux.org/msg/ZFS-8000-HC
scan: scrub repaired 0B in 3h19m with 0 errors on Sun Aug 11 07:14:28 2019
config:

    NAME        STATE     READ WRITE CKSUM
    NAS         ONLINE       0   511     0
      raidz2-0  ONLINE       0   200     0
        sdc     ONLINE       0     0     0
        sdd     ONLINE       0     0     0
        sde     ONLINE       3   224     0
        sdf     ONLINE      12   225     0
        sdg     ONLINE       3   226     0
        sdh     ONLINE       3   227     0
    spares
      sdb       AVAIL

이러한 오류로 인해 데이터가 손실되지 않으며 정리로 인해 풀에서 바이트를 복구해야 하는 일도 없습니다. 풀을 파일 시스템에 다시 마운트하려면 항상 컴퓨터를 다시 시작해야 합니다. 몇 달째 같은 패턴을 겪고 있어요. 이것을 보면 하나의 디스크가 불량하거나(sdf) 실제로 모든 디스크에 오류가 발생하여 사전 오류 징후가 나타나는 것처럼 보입니다. SMART를 사용하여 디스크 자체 테스트를 실행하면 항상 문제가 발생하지 않으며 컴퓨터를 재설정하고 테스트를 실행한 후에도 드라이브에 문제가 표시되지 않았습니다. 장애가 발생하는 경우 유용할 것으로 예상하여 핫 스페어를 할당했습니다. 이 시점에서 나는 드라이브 sdf를 sdb로 교체하고 문제가 해결되었는지 확인해야 한다고 생각했습니다.

따라서 내 질문은 기본적으로 여러 드라이브의 풀에서 이와 같은 오류가 표시되면 모든 드라이브가 항상 오류 이전 상태에 있습니까? 아니면 중복 알고리즘으로 인해 하나의 불량 디스크가 다른 드라이브에 오류를 "전파"하게 됩니까?입니다.

편집: 댓글에 추가되었지만 가시성을 위해 여기에도 추가되었습니다. 나는 중고 드라이브를 모두 샀습니다. 이 모든 것은 회로 기판에 직접 연결됩니다. 정확한 설정은 기억나지 않지만 마더보드에는 포트의 2/3를 처리하는 칩이 2개 있고 나머지는 Intel 사우스브리지가 처리하는 것 같습니다. 하드웨어 RAID 컨트롤러가 없습니다. sd[cd]에서는 오류가 발생하지 않고 나머지 4개에서만 오류가 발생하며 항상 이 모드에 있습니다. 대부분은 [f]이고 덜 [egh]이며 거의 동일합니다.

답변1

동시에 여러 드라이브에서 오류가 발생할 때마다, 특히 드라이브가 동일한 컨트롤러에 있는 경우 컨트롤러나 케이블 연결을 가장 먼저 의심해야 합니다. 고품질 SATA 케이블도 상당히 저렴하므로 한두 개의 드라이브에 있는 케이블을 교체하고 차이가 있는지 확인하는 것이 좋습니다. 양쪽 끝이 단단히 삽입되었는지 확인하십시오.

디스크가 SMART 데이터를 올바르고 정직하게 보고한다고 가정하면(모든 소비자급 디스크와는 다름) SMART 속성 199 를 확인하여 데이터 케이블 연결 문제를 확인할 수 있습니다 UDMA_CRC_Error_Count. 이 숫자가 증가하는 경우, 특히 운영 체제에서 저장소 오류를 보고하는 것과 동시에 증가하는 경우 데이터 케이블 연결 문제가 있을 수 있습니다. 속성 184 End-to-End_Error도 정보를 제공할 수 있습니다.

일반적으로 , , Reallocated_Sector_Ct및 변경 되지 않은 한 ,Reallocated_Event_CountCurrent_Pending_SectorOffline_Uncorrectable아마도문제는 디스크 자체가 아니라 배선이나 컨트롤러가 문제를 일으키는 것입니다. 내가 상상할 수 있는 유일한 상황은 그것이 제자리에 있지만 디스크에 문제가 있을 수 있는 곳은 헤드 정렬 문제이지만, 그런 경우에는 몇 가지 오류만 발생하지 않을 것입니다.

아직 수행하지 않았다면 시간 경과에 따른 SMART 데이터 추세를 추적할 수 있는 방식으로 시스템을 설정하는 것도 나쁘지 않은 생각일 수 있습니다. 나는 시간의 스냅샷과 "이전에는 가치가 더 높거나 낮지 않았나요?"라는 느낌보다 추세가 더 많은 정보를 제공한다고 찾는 경향이 있습니다.

관련 정보