Fedora에서 Matlab을 사용할 때 발생하는 "하드웨어 오류"는 정말 하드웨어 문제인가요, 아니면 소프트웨어 문제인가요?

Fedora에서 Matlab을 사용할 때 발생하는 "하드웨어 오류"는 정말 하드웨어 문제인가요, 아니면 소프트웨어 문제인가요?

Fedora 20에서 Matlab 2012를 사용할 때 FFT 계산이나 그래픽 그리기 도중이나 이후에 다음과 같은 문제를 자주 발견합니다.

오류 메시지는 다음과 같습니다.

[  635.157606] mce: [Hardware Error]: CPU 4: Machine Check Exception: 4 Bank 0: b650200000000135 
[  635.157606] mce: [Hardware Error]: TSC 22cd709f356 ADDR 5989fdd80
[  635.157606] mce: [Hardware Error]: PROCESSOR 2:100fa0 TIME 1462430327 SOCKET 0 APIC 4 microcode 10000dc
[  635.157606] [Hardware Error]: MC0 Error: Data/Tag DRD error.
[  635.157606] [Hardware Error]: Error Status: System Fatal error.
[  635.157606] [Hardware Error]: CPU:4 (10:a:0) MC0_STATUS[-|UE|-|PCC|AddrV|UECC]: 0xb650200000000135
[  635.157606] [Hardware Error]:MC0_ADDR: 0x00000005989fdd80 
[  635.157606] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
[  635.157606] mce: [Hardware Error]: Machine check: Invalid
[  635.157606] Kernel panic - not syncing: Fatal machine check on current CPU
[  635.157606] Kernel Offset: 0x0 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffff9fffffff)
[  635.157606] drm_kms_helper: panic occurred, switching back to text console

소프트웨어(예: Matlab) 때문인가요, 아니면 하드웨어(예: CPU, 내 CPU는 AMD X6 1055T) 때문인가요? 이 문제를 어떻게 해결할 수 있나요?

답변1

이는 하드웨어 오류입니다. 특히 이는 감지되었지만 수정되지 않은 ECC 메모리 오류였습니다. 어떻게 알아? 위의 출력을 파이프 mcelog --ascii하면 다음을 얻을 수 있습니다.

Hardware event. This is not a software error.
CPU 4 0 data cache TSC 22cd709f356 
ADDR 5989fdd80 
TIME 1462430327 Thu May  5 02:38:47 2016
  Data cache ECC error (syndrome a0)
       bit45 = uncorrected ecc error
       bit57 = processor context corrupt
       bit61 = error uncorrected
  memory/cache error 'data read mem transaction, data transaction, level 1'
STATUS b650200000000135 MCGSTATUS 4
CPUID Vendor AMD Family 16 Model 10
SOCKET 0 APIC 4 microcode 10000dc

( PROCESSOR해당 행이 포함되지 않은 이전 커널 메시지의 경우 실제 시스템에서 사용되는 CPU 유형을 알고 지정해야 합니다. 그러나 해당 행을 사용하여 시스템에서 출력을 실행하면 마치 현지화) .

답변2

하드웨어 오류, CPU 또는 메모리 오류인 것 같습니다. 다른 CPU를 사용하거나 PC의 메모리를 교체하거나 다른 컴퓨터/CPU에서 동일한 작업을 시도할 수 있는 경우 하드웨어 문제를 해결할 수 있습니다.
또한 다른 하드웨어의 BIOS와 펌웨어도 업데이트해야 도움이 될 수 있습니다. 때로는 BIOS 업데이트를 통해 CPU 마이크로코드가 새로 고쳐지는데, 이를 통해 메모리/CPU 버그를 제거할 수 있습니다.

관련 정보