Solaris 11이 무작위로 충돌함

Solaris 11이 무작위로 충돌함

오늘 아침에 무작위로 충돌이 발생한 Solaris 11 시스템이 있습니다. 머신을 물리적으로 다시 시작한 후 모든 드라이브가 Sense Key: Soft_Errordmesg 및 /var/adm/messages.

시스템의 모든 드라이브에 동일한 소프트 오류가 표시되므로 이는 HBA에 결함이 있음을 의미합니까? 누구 아이디어나 제안이 있나요?

root@solaris-machine:/var/log# iostat -E
sd0       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:       Revision: SN02 Serial No: 
Size: 500.11GB <500107862016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 12 Predictive Failure Analysis: 0
sd2       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No:  
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1
Illegal Request: 0 Predictive Failure Analysis: 0 
sd4       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0 
sd5       Soft Errors: 1 Hard Errors: 0 Transport Errors: 0 
Vendor: ATA      Product:      Revision: 0004 Serial No: 
Size: 3000.59GB <3000592982016 bytes>
Media Error: 0 Device Not Ready: 0 No Device: 0 Recoverable: 1 
Illegal Request: 0 Predictive Failure Analysis: 0




Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfae642 (sd4):
Jan 23 10:45:02 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:02 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfc8db2 (sd2):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:        
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /scsi_vhci/disk@g5000c5004dfd4ce3 (sd5):
Jan 23 10:45:04 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:04 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (<vendor unique code 0x0>), ASCQ: 0x1d, FRU: 0x0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.warning] WARNING: /pci@0,0/pci15d9,664@1f,2/disk@0,0 (sd0):
Jan 23 10:45:07 solaris-machine      Error for Command: <undecoded cmd 0xa1>    Error Level: Recovered
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Requested Block: 0                         Error Block: 0
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Vendor: ATA                                Serial Number:
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        Sense Key: Soft_Error
Jan 23 10:45:07 solaris-machine scsi: [ID 107833 kern.notice]        ASC: 0x0 (no additional sense info), ASCQ: 0x0, FRU: 0x0

답변1

Solaris 11 서버가 충돌할 때 확인하는 위치는 다음과 같습니다.

  • dmesg | less
    • 이것을 주의 깊게 읽으십시오. 여기에 단서가 있습니다. 또는 /var/adm/messagesdmesg 버퍼가 루프된 경우 충돌 로그를 살펴보십시오.
  • fmadm faulty
    • 그러면 디스크, HBA, NIC 등을 포함하여 Fault Manager가 결함이 있는 것으로 간주하는 모든 장치가 표시됩니다.
  • fmdump -eV
    • 이렇게 하면 하드웨어 일부에 결함이 있는 것으로 표시되었는지 여부에 관계없이 결함 관리 시스템에서 식별한 시스템의 모든 오류가 표시됩니다.
  • 문제의 디스크가 zpool의 일부인 경우 zpool scrub해당 풀에서 실행하고 zpool statusHBA 또는 디스크에 문제가 있음을 나타낼 수 있는 체크섬 오류가 나타나는지 확인하십시오.
  • 를 실행하여 덤프 구성이 크래시 덤프를 캡처하도록 설정되어 있는지 확인하십시오 dumpadm. 해당 출력에는 savecore가 활성화되어 있고 충돌이 에 남아 있다고 표시되어야 합니다 /var/crash. 시스템이 오늘 아침 충돌로 인해 충돌 덤프를 남긴 경우 /var/crash충돌의 pstack을 보고 근본 원인을 파악할 수 있습니다.

이러한 단계를 통해 시스템 충돌의 원인을 파악하는 데 더 가까워질 수 있습니다.

답변2

[더 이상 Solaris 전문가는 아니지만 Linux 하드웨어에 익숙함] 단일 드라이브라면 그 중 하나에 오류가 발생했다고 의심할 것입니다. 그러나 이 모든 것은 매우 수상한 일이다. 컨트롤러에 뭔가 문제가 있는 게 아닐까요?

최근에 제가 본 충돌의 대부분은 CPU 과열(팬 고장, 먼지, 공기 순환 차단), 그래픽 카드 드라이버(특히 nVidia)로 인한 2차 정지로 인해 발생합니다. 과거에는 정전과 심지어 소규모 정전이 문제가 되기도 했습니다.

답변3

소수의 소프트 오류는 무시해도 됩니다. Solaris는 다른 운영 체제가 인식하지 못하는 모든 것을 현학적으로 기록하고 보고합니다.

오류 수(재부팅 시 재설정)를 모니터링하고 패턴을 확인합니다.

또한 한 장치의 소프트 오류로 인해 동일한 버스에 있는 다른 드라이브의 개수도 증가하는 경우가 많습니다. 그러나 한 드라이브가 다른 드라이브보다 오류가 몇 배나 더 많은 확실한 승자가 있습니다.

HBA 오류를 나타내는 드라이브 오류 수(소프트 오류 또는 하드 오류)를 본 적이 없지만 제 경우일 수도 있습니다. HBA 오류는 일반적으로 mpt 오류와 같은 다른 메시지로 나타납니다.

관련 정보