smartctl 및 하드 드라이브 오류 이해

2024-5-31 • tag-icon

linux hard-disk zfs smartctl

smartctl 및 하드 드라이브 오류 이해

raidz2 ZFS 풀이 있고 zfs가 실패로 표시하기 전에 내 디스크 중 2개에서 I/O 오류가 발생하기 시작했습니다.dmesg 로그를 보려면 클릭하세요.

디스크를 꺼내서 몇 가지 테스트를 실행했습니다. 지능형 제어 이론;

디스크 1"전체 로그를 보려면 클릭하세요.=SMART 상태: 데이터 채널이 곧 실패할 예정입니다. 데이터 오류율이 너무 높습니다. [asc=5d, ascq=32]
디스크 2"전체 로그를 보려면 클릭하세요.=SMART 상태: 임박한 하드웨어 오류 일반 하드 드라이브 오류 [asc=5d, ascq=10]

"DISK 1"에서 새 풀을 만들고 fio 테스트를 시작했지만 디스크에 I/O 오류가 표시되지 않습니다. 이전과 같은 오류는 발생하지 않았습니다. 디스크가 잘 작동하고 있습니다. 또한 4개의 디스크로 구성된 풀을 만들었고 디스크 활용도는 정상이었습니다.
이 테스트를 4일 동안 시도했는데 오류가 발생하지 않았습니다. 이제 디스크가 다른 디스크처럼 작동합니다.

fio --randrepeat=0 --ioengine=libaio --name=test --filename=/disktest/fiofile  \  
--bs=1024k --iodepth=64 --size=5T --readwrite=readwrite --rwmixread=60 --numjobs=20

몇 가지 질문이 있습니다.
1- 디스크에 더 이상 오류가 발생하지 않는 이유는 무엇입니까?
2- 디스크가 제대로 작동하는 경우 첫 번째 풀에서 I/O 오류가 발생하는 이유는 무엇입니까?
3- 하드 드라이브에 오류가 있는지 확인하는 가장 좋은 방법은 무엇입니까?
4- 하드 드라이브 오류 카운터를 어떻게 재설정합니까?
5- 디스크가 정크인가요?

연결된 디스크의 출처는 다음과 같습니다.컨트롤러 -> LSI3008HBA -> SAS 케이블 2개 -> "SC946ED-R2KJBOD" 2xExpander -> 다중 경로 SAS 디스크.

답변1

일부 결함이 나타나거나 사라질 수 있습니다. 디스크가 손상되기 전에 경고가 표시된다는 보장은 없지만 SMART에서 오류가 발생하기 시작하면 위험을 무릅쓰지 않고 드라이브를 교체하는 것이 가장 좋습니다.
때때로 디스크는 성공할 때까지 문제 영역을 계속 재시도하기 때문에 오류가 왔다가 사라질 수 있습니다(이 시점에서는 일반적으로 가능하다면 해당 영역을 다시 사용하지 않으려고 시도합니다).
사용 중인 각 LBA에 대해 긴 SMART 자체 테스트 및/또는 읽기/쓰기를 실행할 수 있습니다(ZFS에는 시작할 수 있는 정리(즉, 재동기화) 프로세스가 있습니다). 하지만 주의하세요. 이로 인해 디스크가 영구적으로 고장날 수 있습니다.
당신은 할 수 없습니다.
말하기는 어렵지만 달리 표현하자면, 불필요한 장비를 교체하지 않음으로써 절약된 비용이 갑자기 고장날 위험을 감수할 만큼 가치가 있습니까?

관련 정보