raidz2 ZFS 풀이 있고 zfs가 실패로 표시하기 전에 내 디스크 중 2개에서 I/O 오류가 발생하기 시작했습니다.dmesg 로그를 보려면 클릭하세요.
디스크를 꺼내서 몇 가지 테스트를 실행했습니다. 지능형 제어 이론;
디스크 1"전체 로그를 보려면 클릭하세요.=SMART 상태: 데이터 채널이 곧 실패할 예정입니다. 데이터 오류율이 너무 높습니다. [asc=5d, ascq=32]
디스크 2"전체 로그를 보려면 클릭하세요.=SMART 상태: 임박한 하드웨어 오류 일반 하드 드라이브 오류 [asc=5d, ascq=10]
"DISK 1"에서 새 풀을 만들고 fio 테스트를 시작했지만 디스크에 I/O 오류가 표시되지 않습니다. 이전과 같은 오류는 발생하지 않았습니다. 디스크가 잘 작동하고 있습니다. 또한 4개의 디스크로 구성된 풀을 만들었고 디스크 활용도는 정상이었습니다.
이 테스트를 4일 동안 시도했는데 오류가 발생하지 않았습니다. 이제 디스크가 다른 디스크처럼 작동합니다.
fio --randrepeat=0 --ioengine=libaio --name=test --filename=/disktest/fiofile \
--bs=1024k --iodepth=64 --size=5T --readwrite=readwrite --rwmixread=60 --numjobs=20
몇 가지 질문이 있습니다.
1- 디스크에 더 이상 오류가 발생하지 않는 이유는 무엇입니까?
2- 디스크가 제대로 작동하는 경우 첫 번째 풀에서 I/O 오류가 발생하는 이유는 무엇입니까?
3- 하드 드라이브에 오류가 있는지 확인하는 가장 좋은 방법은 무엇입니까?
4- 하드 드라이브 오류 카운터를 어떻게 재설정합니까?
5- 디스크가 정크인가요?
연결된 디스크의 출처는 다음과 같습니다.컨트롤러 -> LSI3008HBA -> SAS 케이블 2개 -> "SC946ED-R2KJBOD" 2xExpander -> 다중 경로 SAS 디스크.
답변1
- 일부 결함이 나타나거나 사라질 수 있습니다. 디스크가 손상되기 전에 경고가 표시된다는 보장은 없지만 SMART에서 오류가 발생하기 시작하면 위험을 무릅쓰지 않고 드라이브를 교체하는 것이 가장 좋습니다.
- 때때로 디스크는 성공할 때까지 문제 영역을 계속 재시도하기 때문에 오류가 왔다가 사라질 수 있습니다(이 시점에서는 일반적으로 가능하다면 해당 영역을 다시 사용하지 않으려고 시도합니다).
- 사용 중인 각 LBA에 대해 긴 SMART 자체 테스트 및/또는 읽기/쓰기를 실행할 수 있습니다(ZFS에는 시작할 수 있는 정리(즉, 재동기화) 프로세스가 있습니다). 하지만 주의하세요. 이로 인해 디스크가 영구적으로 고장날 수 있습니다.
- 당신은 할 수 없습니다.
- 말하기는 어렵지만 달리 표현하자면, 불필요한 장비를 교체하지 않음으로써 절약된 비용이 갑자기 고장날 위험을 감수할 만큼 가치가 있습니까?