나는 자신의 서버 중 하나에서 발생한 다음 오류가 심각한 문제를 나타냄을 우려하는 사용자로부터 이메일을 받았습니다. 문제는 아래 오류가모두계속해야합니다. 나는 일반적으로 나 자신을 꽤 훌륭한 Google 직원이라고 생각하지만 이 경우에는하나"프로브 필터 카탈로그"와 관련하여 사용자에게 오류가 발생한 기타 이벤트:
[1044 snapshots @ abc]$
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: CPU:0
MC4_STATUS[Over|CE|MiscV|-|AddrV|-|Poison|CECC]: 0xdc0248d0001f010b
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: MC4_ADDR: 0x0000000000010f40
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: Northbridge Error (node 0): ECC Error in the
Probe Filter directory.
Message from syslogd@abc at Sep 8 02:51:51 ...
kernel:[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: GEN
내가 아는 한, 이런 일은 딱 한 번 일어났습니다. 로그에서 다른 하드웨어 오류를 찾아보니 이 이벤트 외에는 발견되지 않았습니다.
위에서 인용한 포럼 게시물은 기본적으로 한 번만 발생하고 치명적인 문제를 일으키지 않는 경우 걱정하지 말라고 사용자에게 알리는 것으로 끝납니다. 이는 너무 많은 변수(예: 9월 8일 오전 2시 50분에 실행되고 있던 프로그램?)를 언급한 동료들로부터 받은 조언과 동일합니다.
그러나 사용자는 시스템에 문제가 없는지 확인하고 싶어합니다. 위의 오류는 무엇을 나타내거나 관련되어 있습니까? "프로브 필터 카탈로그"란 무엇입니까? 이로 인해 컴퓨터에 임박한 파멸이 발생하지 않는다는 점을 사용자에게 확신시키기 위해 어떤 테스트를 실행할 수 있습니까?
이 컴퓨터의 Linux 배포판은 Red Hat Enterprise Linux Server 버전 6.4(Santiago)입니다.
답변1
정확한 답변은 없지만 일부는 익숙합니다. Probe Filter 디렉터리가 무엇인지 모르지만 CptSupermrkt가 위에서 설명합니다.
PCI에서 노스브리지는 메모리와 프로세서에 연결됩니다. ECC 오류는 DRAM과 관련이 있습니다. 각 워드에는 오류 정정 코드 비트가 저장됩니다. 읽을 때 업데이트되었는지 확인합니다. ECC 오류는 수정 가능하거나 수정 불가능합니다. 이는 기록된 비트를 사용하여 오류를 수정할 수 있음을 나타냅니다. 수정하지 못했다고 해서 영구적인 하드웨어 오류가 발생한 것은 아닙니다. 이러한 상황은 DRAM에 오류가 발생하기 시작할 때 발생합니다.
이 모든 것을 고려하면 이는 일시적인 버그처럼 보입니다. 전체 메모리 테스트를 시도해 볼 수도 있지만 결과가 나올 가능성은 거의 없습니다. DRAM에 오류가 발생하면 유일한 수정 조치는 DRAM을 교체하는 것입니다.