이틀에 한 번씩 커널 패닉이 발생합니다. 아래는 콘솔 사진 전문입니다. 어떤 하드웨어가 문제를 일으키는지 어떻게 확인합니까? (또는 소프트웨어)
우분투 12.04 LTS 서버
[Hardware Error]: CPU:2 MC0_STATUS[-|UE|-|-|AddrV|UECC]: 0xb400200055000145
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWR error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DWR
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: CPU 3: Machine Check Exception: 4 Bank 0: b66b400000000135
[Hardware Error]: TSC bc02bd350de4 ADDR 164fe7bb0
[Hardware Error]: PROCESSOR 2:100f42 TIME 1378965147 SOCKET 0 APIC 3 microcode 10000c6
[Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135
[Hardware Error]: MC0_ADDR: 0x0000000164fe77b0
[Hardware Error]: Data Cache Error: Data/Tag DWD error.
[Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[Hardware Error]: Machine Check: Invalid
Kernel panic - not syncing: Fatal machine check on current CPU
Shutting down cpus with NMI
내가 찾은 추가 로깅은 다음과 같습니다.
kernel: [58495.948100] ------------[ cut here ]------------
kernel: [58495.948108] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280()
kernel: [58495.948109] Hardware name: MS-7576
kernel: [58495.948110] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out
kernel: [58495.948111] Modules linked in: nfsd nfs lockd fscache auth_rpcgss nfs_acl sunrpc xfs vesafb radeon ttm drm_kms_helper snd_hda_codec_hdmi snd_hda_codec_realtek snd_hda_intel drm snd_hda_codec wmi i2c_algo_bit snd_hwdep snd_pcm snd_timer snd soundcore snd_page_alloc lp shpchp r8169 sp5100_tco i2c_piix4 firewire_ohci parport firewire_core kvm_amd edac_core k10temp edac_mce_amd serio_raw kvm mac_hid microcode crc_itu_t raid10 raid456 async_pq async_xor xor async_memcpy async_raid6_recov raid6_pq async_tx raid1 raid0 multipath linear pata_atiixp
kernel: [58495.948136] Pid: 0, comm: swapper/3 Tainted: G M 3.5.0-23-generic #35~precise1-Ubuntu
kernel: [58495.948137] Call Trace:
kernel: [58495.948138] <IRQ> [<ffffffff81052c9f>] warn_slowpath_common+0x7f/0xc0
kernel: [58495.948144] [<ffffffff81052d96>] warn_slowpath_fmt+0x46/0x50
kernel: [58495.948146] [<ffffffff815a05b2>] dev_watchdog+0x272/0x280
kernel: [58495.948149] [<ffffffff8101be03>] ? native_sched_clock+0x13/0x80
kernel: [58495.948151] [<ffffffff810702d0>] ? __queue_work+0x330/0x330
kernel: [58495.948153] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948154] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948156] [<ffffffff81062ce6>] call_timer_fn+0x46/0x160
kernel: [58495.948158] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0
kernel: [58495.948159] [<ffffffff81064632>] run_timer_softirq+0x132/0x2a0
kernel: [58495.948162] [<ffffffff810a4105>] ? ktime_get+0x65/0xe0
kernel: [58495.948164] [<ffffffff8105ba88>] __do_softirq+0xa8/0x210
kernel: [58495.948166] [<ffffffff810ab264>] ? tick_program_event+0x24/0x30
kernel: [58495.948168] [<ffffffff816a841c>] call_softirq+0x1c/0x30
kernel: [58495.948170] [<ffffffff81016245>] do_softirq+0x65/0xa0
kernel: [58495.948172] [<ffffffff8105be6e>] irq_exit+0x8e/0xb0
kernel: [58495.948174] [<ffffffff816a8d5e>] smp_apic_timer_interrupt+0x6e/0x99
kernel: [58495.948176] [<ffffffff816a7aca>] apic_timer_interrupt+0x6a/0x70
kernel: [58495.948177] <EOI> [<ffffffff8103ff56>] ? native_safe_halt+0x6/0x10
kernel: [58495.948180] [<ffffffff8101c993>] default_idle+0x53/0x1f0
kernel: [58495.948182] [<ffffffff8101d8a9>] cpu_idle+0xd9/0x120
kernel: [58495.948184] [<ffffffff8167b237>] start_secondary+0xc3/0xc5
kernel: [58495.948185] ---[ end trace ef52dc6dad6ceea1 ]---
# dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Product Name: MS-7576
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD
Version: 1.0
Serial Number: To Be Filled By O.E.M.
Socket Designation: CPU1
Manufacturer: AMD
Version: AMD Phenom(tm) II X4 B50 Processor
Serial Number: To Be Filled By O.E.M.
답변1
예, 이는 하드웨어 문제입니다. 주로 링 버퍼 출력에 [Hardware Error]
.
시스템 보드, CPU 소켓, CPU가 의심됩니다.
하드웨어에 대한 세부정보가 있나요? 다음 문자열은 무엇을 보고합니까?
dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)'
답변2
RAM 오류가 발생한 것 같습니다. memtest86을 실행하여 이를 확인할 수 있습니다.
또한 mcelog 패키지가 설치되어 있는 경우 /var/log/mcelog에서 자세한 내용을 확인하세요.
ECC RAM을 처리할 수 있는 서버급 마더보드로 전환하는 것이 좋습니다.
답변3
나는 하나를 보았다기계 점검 예외. 이는 CPU에서 문제가 감지되었음을 의미합니다.
MCE는 캐시에서 데이터를 읽고, ECC 오류를 확인하고, 다시 시도하는 것만큼 간단합니다. 이런 종류의 실수는 때때로 발생합니다. (이것이 CPU가 제한된 횟수만큼 재시도하는 이유입니다.)
귀하의 경우 다음 사항도 확인됩니다.
Data Cache Error: Data/Tag DWR error.
cache level: L1, tx: DATA, mem-tx: DWR
이는 첫 번째 수준 캐시(CPU 코어 옆 및 동일한 칩에 위치)의 버그입니다. 이것은 주 메모리의 오류가 아닙니다.
나머지 기록에는 여러 오류가 표시되었으며 일부 오류 유형은 동일했지만 항상 동일한 핵심은 아닙니다. 이 시점에서 나는 CPU 고장에 대해 걱정하기 시작했습니다. 가장 먼저 확인해야 할 것은 CPU가 과열되는지 여부입니다.
어떤 하드웨어가 문제를 일으키는지 어떻게 확인합니까? (또는 소프트웨어)
MCE 오류는 일반적으로 하드웨어 오류입니다. 발생한 오류와 일치하는 것 같습니다.
여유 CPU가 있다면 그걸 사용해 보세요.
그렇지 않은 경우 시스템이 적절하게 냉각되었는지 확인하고 시간이 지남에 따라 온도를 모니터링하십시오.
아직 설치하지 않으셨다면 설치해보세요마이크 셀로그그리고 준비이 위키피디아 기사.
답변4
방금 Dell XPS 420 Core2 Quad Q6600에서 이 오류가 발생했습니다.
이 기계의 이전 소유자는 과거에 호흡 문제가 있었고 내부가 매우 더러웠으며(흡연자) 무작위로 다시 시작될 정도로 가열되었습니다. 이것이 얼마나 오랫동안 지속되었는지는 잘 모르겠습니다.
BIOS에 들어가서 CPU의 코어 2개를 비활성화했는데 이제 모든 것이 잘 작동하는 것 같습니다. CPU가 실제로 2개(또는 한 번에 2개만 비활성화할 수 있으므로 1개)가 소진될 정도로 과열된 것 같습니다. 코어.
이제 기계는 듀얼 코어로 잘 작동합니다.