커널 패닉 디버깅 - Watchdog이 CPU 9에서 하드 잠금을 감지합니까?

커널 패닉 디버깅 - Watchdog이 CPU 9에서 하드 잠금을 감지합니까?

새로 다시 설치된 SLES 11.4의 /var/crash에서 다음 dmesg를 볼 수 있습니다.

<7>[   48.600847] storage: no IPv6 routers present
<6>[   63.725477] BIOS EDD facility v0.16 2004-Jun-25, 1 devices found
<6>[  310.226578] [Hardware Error]: Machine check events logged
<6>[ 3536.417543] lp: driver loaded but no devices found
<6>[ 3536.417582] ppdev: user-space parallel port driver
<6>[ 3536.983736] lp: driver loaded but no devices found
<6>[ 3537.005660] Uniform Multi-Platform E-IDE driver
<6>[ 3537.011756] ide-cd driver 5.00
<6>[ 3537.033960] st: Version 20101219, fixed bufsize 32768, s/g segs 256
<0>[ 3691.340041] Kernel panic - not syncing: Watchdog detected hard LOCKUP on cpu 9
<4>[ 3691.447069] Pid: 0, comm: kworker/0:1 Tainted: G             X 3.0.101-107-default #1
<4>[ 3691.554690] Call Trace:
<4>[ 3691.590254]  [<ffffffff81004b35>] dump_trace+0x75/0x300
<4>[ 3691.664599]  [<ffffffff81467873>] dump_stack+0x69/0x6f
<4>[ 3691.738878]  [<ffffffff8146792f>] panic+0xb6/0x224
<4>[ 3691.804367]  [<ffffffff810c900c>] watchdog_overflow_callback+0xdc/0xe0
<4>[ 3691.896736]  [<ffffffff810f55fa>] __perf_event_overflow+0xaa/0x230
<4>[ 3691.980294]  [<ffffffff81018808>] intel_pmu_handle_irq+0x1a8/0x370
<4>[ 3692.069469]  [<ffffffff8146c8f1>] perf_event_nmi_handler+0x31/0xa0
<4>[ 3692.156027]  [<ffffffff8146ea47>] notifier_call_chain+0x37/0x70
<4>[ 3692.239630]  [<ffffffff8146ea8d>] __atomic_notifier_call_chain+0xd/0x20
<4>[ 3692.334749]  [<ffffffff8146eadd>] notify_die+0x2d/0x40
<4>[ 3692.409254]  [<ffffffff8146c073>] default_do_nmi+0x33/0xc0
<4>[ 3692.489610]  [<ffffffff8146c168>] do_nmi+0x68/0x80
<4>[ 3692.558033]  [<ffffffff8146b595>] restart_nmi+0x1e/0x2e

하드웨어 문제인지 소프트웨어 문제인지 확인하기 위해 다시 설치했지만 여전히 작동하지 않습니다.DSA 로그를 실행하면 충돌이 발생합니다.(가동 시간은 약 3500초입니다.)

질문:이 dmesg(또는 기타 정보)를 통해 충돌의 원인이 무엇인지 확인할 수 있습니까? CPU9 오류? 아니면 드라이버 버그일까요?

답변1

메가레이드 펌웨어(및 램 DIMM 문제!)를 업그레이드하면 DSA 중 충돌이 해결된 것 같습니다.

관련 정보