"APEI 일반 하드웨어 오류 소스의 하드웨어 오류" 오류 메시지 이해

2024-5-21 • tag-icon

일반화하다:다음 오류 메시지의 의미를 정확히 이해하려고 합니다.

[17016.923750] {4}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[17016.923758] {4}[Hardware Error]: It has been corrected by h/w and requires no further action
[17016.923759] {4}[Hardware Error]: event severity: corrected
[17016.923761] {4}[Hardware Error]:  Error 0, type: corrected
[17016.923762] {4}[Hardware Error]:  fru_text: CorrectedErr
[17016.923764] {4}[Hardware Error]:   section_type: memory error

세부 사항:

Intel(R) Xeon(R) CPU E3-1275 v3 @ 3.50GHz저는 Arch Linux( )를 실행하는 CPU를 갖춘 서버를 가지고 있습니다 3.18.6-1-ARCH #1 SMP PREEMPT Sat Feb 7 08:44:05 CET 2015 x86_64 GNU/Linux.

실행하면 dmesg위에 게시된 오류가 표시됩니다. 이러한 오류는 흔하지는 않지만 항상 발생하는 것 같습니다. 예를 들어 서버는 마지막 재시작 이후 1일 동안 실행되었으며 로그에는 이 오류의 인스턴스가 9개 나열됩니다.

또 다른 질문을 봤어요이 오류에 대해 문의하세요그리고 문제가 ECC 메모리 결함이라는 답변도 있습니다.

내 질문은 다음과 같습니다

1) 이 오류 메시지가 ECC 메모리와 관련되어 있다는 생각을 뒷받침하는 참조 자료가 있습니까?

2) DIMM에 오류가 있는 경우 어떤 DIMM인지 확인할 수 있는 권장 방법이 있습니까? memtest86+를 실행해 보았으나 메모리 오류가 보고되지 않았습니다.

3) 운영 체제에서 ECC 오류가 수정되었다고 보고하는 경우 이는 실제로 DIMM에 결함이 있음을 의미합니까?

유일한 문제가 내 로그 파일의 일부 메시지라면 그렇게 걱정하지 않을 것입니다. 하지만 때로는 서버가 예기치 않게 중단되는 경우도 있습니다. 연구용 기계이므로 안정성은 생산 시스템만큼 중요하지 않습니다. 기기가 계속 응답하지 않으면 문제가 있을 수 있습니다. 그래서 이 오류 메시지가 정확히 무엇을 의미하는지 알고 싶습니다. 만약 부품을 교체해야 한다면 어떤 부품을 교체해야 하는지 알 수 있는 방법이 있으면 좋겠습니다.

편집하다

현재 서버는 8일 동안 중단 없이 실행되었으며 로그에 이 오류 메시지가 148개 표시되었습니다. 또한 다음 메시지의 인스턴스가 표시됩니다.

[671211.188084] EDAC MC0: INTERNAL ERROR: csrow value is out of range (6 >= 4)
[671211.188333] EDAC MC0: 1 CE ie31200 CE on unknown memory (channel:1 page:0x0 offset:0x0 grain:0 syndrome:0xc8)

DIMM 중 하나에 문제가 있는 것 같습니다. 특히 어떤 DIMM에 문제가 있는지 알아내기 위해 이러한 메시지를 해석하는 방법을 아는 사람이 있는지 알고 싶습니다.

답변1

참고로 저도 비슷한 문제를 겪고 있는 것 같습니다. Xeon에 있고 Debian은 최근 Wheezy에서 Jessie로 업그레이드되었습니다.

해결책은 메모리를 제거하고 다시 설치하는 것이었고 모든 것이 정상으로 돌아왔습니다.

답변2

내가 아는 한, 이 오류는 정상입니다. UEFI와 관련됩니다. 버그를 제거하려면 커널 변경이 필요하지만 분명히 무해합니다.

답변1

답변2

관련 정보