[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]: Error 0, type: corrected
[58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]: section_type: memory error
[58306.633914] {1}[Hardware Error]: node: 0 device: 44696
[58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
이것은 내 Debian Xeon 서버에 나타났습니다.오류 정정 코드 메모리, RAM 모듈이 죽어가고 있다는 뜻인가요, 아니면 다른 문제(예: SW로 인한 오류)인가요? 나는 보았다다른 게시물그의 OS는 다시 시작되었지만 내 OS는 다시 시작되지 않았다고 주장했기 때문에 내가 물었습니다. 감사해요.
답변1
ECC 메모리 오류는 항상 소프트웨어 오류가 아닌 하드웨어 오류입니다. 이는 그들이 표시한다는 의미는 아닙니다.실패하다하드웨어의 경우 무작위 비트 플립으로 인해 발생할 수 있습니다. (이 주제에 관한 Google의 2009년 논문은 흥미로운 통찰력을 제공합니다.; 인용문은 보다 최근의 분석을 제공할 수 있습니다. )
하드웨어 비트 플립할 수 있는소프트웨어에 의해 트리거됨,예를 들어 Rowhammer 공격에서.
ECC 오류가 자주 발생하거나 수정할 수 없는 ECC 오류가 표시되지 않는 한 걱정할 필요가 없습니다.