동일한 문제가 있는 여러 Dell 물리적 서버가 있습니다.FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
이것으로부터 dmesg
우리는 다음을 볼 수 있습니다
[2982241.758445] [<ffffffff81697709>] system_call_fastpath+0x16/0x1b
[2982252.738962] sd 0:0:2:0: [sdc] tag#14 megasas: target reset FAILED!!
[2985405.797192] sd 0:0:2:0: [sdc] tag#102 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797199] sd 0:0:2:0: [sdc] tag#102 CDB: Read(10) 28 00 d7 00 2c e8 00 00 08 00
[2985405.797205] blk_update_request: I/O error, dev sdc, sector 3607112936
[2985405.797214] sd 0:0:2:0: [sdc] tag#104 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797217] sd 0:0:2:0: [sdc] tag#104 CDB: Read(10) 28 00 d7 00 2c f8 00 00 08 00
[2985405.797219] blk_update_request: I/O error, dev sdc, sector 3607112952
[2985405.797477] sd 0:0:2:0: [sdc] tag#97 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797480] sd 0:0:2:0: [sdc] tag#97 CDB: Read(10) 28 00 d7 00 2c b8 00 00 08 00
[2985405.797482] blk_update_request: I/O error, dev sdc, sector 3607112888
[2985405.797493] sd 0:0:2:0: [sdc] tag#103 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797496] sd 0:0:2:0: [sdc] tag#103 CDB: Read(10) 28 00 d7 00 2c f0 00 00 08 00
[2985405.797498] blk_update_request: I/O error, dev sdc, sector 3607112944
[2985405.797508] sd 0:0:2:0: [sdc] tag#96 FAILED Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK
[2985405.797511] sd 0:0:2:0: [sdc] tag#96 CDB: Read(10) 28 00 d7 00 2c b0 00 00 08 00
[2985405.797513] blk_update_request: I/O error, dev sdc, sector 3607112880
[3443407.164780] sd 0:0:2:0: task abort: FAILED scmd(ffff881ff7b43100)
[3443433.877426] sd 0:0:2:0: tag#49 megasas: target reset FAILED!
Redhat에 따르면 근본 원인은 다음과 같습니다.(https://access.redhat.com/solutions/438403)
• 드라이버가 보고되지 않은 하드웨어 문제를 감지하면 드라이버 내의 개별 io 요청에 대해 DID_ERROR 호스트 상태가 설정됩니다.
해결 방법은 다음과 같습니다.
도움이 필요하면 스토리지 제공업체에 문의하세요.
시스템 하드웨어, 스위치 오류 카운터 등을 확인하여 문제가 있는 위치에 대한 징후가 있는지 확인하십시오.
드라이버가 저장소에서 이상하거나 예상치 못한 또는 잘못된 정보를 수신하고 있다고 보고합니다.
드라이버가 보고되지 않은 하드웨어 문제를 감지하면 드라이버 내의 개별 io 요청에 대해 DID_ERROR 호스트 상태가 설정됩니다. 여기에는 스토리지 컨트롤러 내의 통신 및 펌웨어 문제는 물론 기타 하드웨어 기반 문제도 포함됩니다.
FC 어댑터: 스토리지의 파이버 채널 응답 프레임에 충돌하는 데이터가 있습니다. 이는 RHEL이나 해당 드라이버가 아닌 SAN/스토리지의 문제를 나타냅니다.
LSI 어댑터: scsi io 명령이 컨트롤러 내에서 완료되지 못했습니다(중지). 이는 상태를 반환하는 scsi 오류나 컨트롤러가 io를 중단할 수 있는 클린 io 시간 초과 문제와는 다릅니다. 이로 인해 일반적으로 장치 손실이 발생하고 HBA가 LD_OFFLINE(논리 장치가 존재하지만 명령에 응답하지 않음) 또는 DEVICE_NOT_FOUND(장치가 하드웨어에 더 이상 존재하지 않음) 장치 상태를 반환할 때 반환되는 DID_BAD_TARGET 오류가 발생합니다.
따라서 위의 내용을 바탕으로 하드웨어 시스템 자체를 교체해야 하는지 아니면 sdc 디스크나 다른 것을 교체해야 하는지 확실하지 않기 때문에 길을 잃었습니다.
우리 사건에 대해 조언을 구해 주시면 감사하겠습니다.
답변1
sdc
서버의 디스크가 죽어가고 있습니다.
smartctl -a /dev/sdc
일련번호로 식별할 수 있습니다.
RAID를 실행 중일 수 있으므로 RAID를 제거하고 교체품을 설치하는 데 주의해야 합니다.