APEI 일반 하드웨어 오류

APEI 일반 하드웨어 오류

내 서버(Debian Jessie 실행)가 지난 주에 두 번 다시 시작되었습니다. 시스템 로그에는 재부팅할 때마다 이 내용이 표시되지만 그 외에는 표시되지 않습니다.

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

일부 인터넷 검색을 통해 이것이 ECC RAM이 오류를 감지하고 복구하는 것과 관련이 있다고 믿게 되었습니다. 맞습니까? 복구하는 경우 시스템이 재부팅되는 이유는 무엇입니까? 가능하다면 시스템이 재부팅되는 것을 방지하고 싶습니다.

답변1

RAM이 제대로 작동하지 않는 것 같거나 수정 중인 오류가 있습니다. 심각도에 따라 이러한 오류가 실행 기능에 영향을 미치고 나중에 다시 시작해야 하는 것처럼 들립니다.

이 스레드의 모습으로 볼 때 오류 섹션 끝에 있는 너무 짧은 길이의 메시지 비트가 원인일 수 있습니다.

발췌-[패치 1/1] efi: cper: 다양한 길이의 오류 부분 지원

최신 UEFI 사양에서는 일부 필드가 오류 섹션에 추가될 수 있습니다. 예를 들어 UEFI 사양 2.3부터 "예약됨", "순위 번호", "카드 핸들" 및 "모듈 핸들" 필드가 "메모리 오류 섹션"에 추가되었습니다. 불행하게도 메모리 수정 오류가 감지되고 struct acpi_generic_data의 "revision" 필드가 0x203(UEFI 사양 2.3)보다 작은 경우 다음 경고 메시지가 나타납니다.

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

이 동작으로 인해 수정된 오류가 올바르게 표시되지 않습니다. 이 문제를 해결하기 위해 패치는 다양한 UEFI 사양 버전에 대해 다양한 길이의 오류 부분을 지원합니다.

또한 패치는 미리 정의된 구조를 사용하여 cper_estatus_print_section 함수에서 중복 코드를 정리합니다.

이 패치를 적용하면 주입된 오류 이후 메모리 수정 오류가 올바르게 표시될 수 있습니다.

Grantley 플랫폼과 Intel RAStool을 사용하여 v3.14-rc5에서 테스트되었습니다.

따라서 이 특정 버그에 대한 패치가 개발 중이며 최신 버전의 커널에서 사용 가능할 수도 있습니다.

답변2

참고로 저도 이것과 매우 비슷한 문제를 갖고 있는 것 같습니다.

해결책은 메모리를 제거하고 다시 설치하는 것이었고 모든 것이 정상으로 돌아왔습니다.

관련 정보