mce 패닉 @4.18 커널이 @5.15 커널을 통과하는 이유는 무엇입니까?

Question 1

아래에 나열된 몇 가지 사실을 바탕으로 내 작업 이론은 수정되지 않은 하드웨어 메모리 오류(UHME)가 발생하여 NMI가 발생했다는 것입니다. NMI 처리 중 페이지 폴트가 발생했습니다. 선점 수를 늘리면 작업 순서 문제가 발생하거나 nmi_handler 내에서 페이지 오류를 허용하는 버그가 있을 수 있습니다.

CentOS 4.18.0.348의 코드는 메인라인 Linux 4.18.0 코드 베이스와 크게 다릅니다. 5.x 버전의 많은 기능이 CentOS 4.18.0.x로 백포트되었습니다. 이 코드는 RedHat에서만 검토되었으므로 오류가 발생할 가능성이 더 높습니다.

내 연구 의견은 다이어그램이 사건의 흐름을 보여준다는 것입니다.

사용자 모드 einj_mem_uc.
nmi_enter()를 시작합니다. in_nmi()는 preempt_count_add()가 true로 설정될 때까지 false입니다.
nmi 핸들러는 내부적으로 NMI 인터럽트 처리를 시작합니다.
페이지 폴트가 발생하고 페이지 폴트 핸들러로 점프합니다.
페이지 폴트 핸들러는 in_nmi()를 true로 유지하고 iret으로 종료됩니다.
Intel iret 결함으로 인해 in_nmi() 값이 false로 지워집니다.
핸들러 내부의 in_nmi()가 false인 hmi 핸들러를 반환합니다.
nmi 핸들러는 BUG_ON(!in_nmi()) 검사를 트리거하는 nmi_exit를 반환합니다.
이로 인해 패닉이 발생하고 중지되거나 다시 시작됩니다.

나는 메인라인 4.18.1이 5.15 커널처럼 작동할 것이라고 생각합니다.

처음에는 다른 소스 코드 작업을 완료했습니다.질문.

Answer

아래에 나열된 몇 가지 사실을 바탕으로 내 작업 이론은 수정되지 않은 하드웨어 메모리 오류(UHME)가 발생하여 NMI가 발생했다는 것입니다. NMI 처리 중 페이지 폴트가 발생했습니다. 선점 수를 늘리면 작업 순서 문제가 발생하거나 nmi_handler 내에서 페이지 오류를 허용하는 버그가 있을 수 있습니다.

CentOS 4.18.0.348의 코드는 메인라인 Linux 4.18.0 코드 베이스와 크게 다릅니다. 5.x 버전의 많은 기능이 CentOS 4.18.0.x로 백포트되었습니다. 이 코드는 RedHat에서만 검토되었으므로 오류가 발생할 가능성이 더 높습니다.

내 연구 의견은 다이어그램이 사건의 흐름을 보여준다는 것입니다.

사용자 모드 einj_mem_uc.
nmi_enter()를 시작합니다. in_nmi()는 preempt_count_add()가 true로 설정될 때까지 false입니다.
nmi 핸들러는 내부적으로 NMI 인터럽트 처리를 시작합니다.
페이지 폴트가 발생하고 페이지 폴트 핸들러로 점프합니다.
페이지 폴트 핸들러는 in_nmi()를 true로 유지하고 iret으로 종료됩니다.
Intel iret 결함으로 인해 in_nmi() 값이 false로 지워집니다.
핸들러 내부의 in_nmi()가 false인 hmi 핸들러를 반환합니다.
nmi 핸들러는 BUG_ON(!in_nmi()) 검사를 트리거하는 nmi_exit를 반환합니다.
이로 인해 패닉이 발생하고 중지되거나 다시 시작됩니다.

나는 메인라인 4.18.1이 5.15 커널처럼 작동할 것이라고 생각합니다.

처음에는 다른 소스 코드 작업을 완료했습니다.질문.

Question 2

댓글과 답변을 하다가 의심했던 대로첫 번째 관련 질문일반적으로 이중 오류가 발생합니다. 여기에 추가합니다. 트리플이 있을 수 있습니다. (4.18에서 감소)

4.18의 경우에만(이 커널 옵션은 5.7에서만 사용 가능하므로) 커널 .config 파일에서 설정을 확인하는 것이 좋습니다.CONFIG_이중 오류이렇게 하면 이중 오류 예외 처리기가 활성화됩니다.
(주석 참고: 이 옵션을 비활성화하면... 흰머리가 더 많아질 수 있습니다. ;-) ) 설정하지 않으면 커널이 상황을 처리할 수 없으며 자동으로 재부팅됩니다.
설정했다면 실제로 4.18에서 삼중 실패에 직면하게 됩니다. (적어도 두 번째 추적 덤프가 시작될 것으로 예상했기 때문에 이것이 가능성이 없다고 생각합니다.) => CONFIG_DOUBLEFAULT가 4.18 구성에 설정되지 않은 것 같습니다.

5.15에서는 왜 이런 일이 발생하지 않습니까?:

5.8부터 x32 아키텍처가 이중 오류를 처리하는 이전 방식을 유지하는 경우 x86_64 아키텍처는 다음 기능의 이점을 누릴 수 있습니다(i386에서는 사용할 수 없음).인터럽트 스택 테이블. 이를 통해 이중 오류 또는 NMI와 같은 지정된 이벤트에 대해 새 스택으로 자동 전환할 수 있습니다.
초기 메모리 오류는 스택(원자적 컨텍스트에서 예약됨)과 관련되므로 추적 덤프에서는 이중 오류가 발생하고 백트레이스 덤프에서는 삼중 오류가 발생합니다.
x86_64의 5.8부터 메모리 오류 없이 새로운 스택으로 전환할 수 있는 가능성은 이중 오류를 원활하게 처리하는 데 도움이 됩니다.

Answer

댓글과 답변을 하다가 의심했던 대로첫 번째 관련 질문일반적으로 이중 오류가 발생합니다. 여기에 추가합니다. 트리플이 있을 수 있습니다. (4.18에서 감소)

4.18의 경우에만(이 커널 옵션은 5.7에서만 사용 가능하므로) 커널 .config 파일에서 설정을 확인하는 것이 좋습니다.CONFIG_이중 오류이렇게 하면 이중 오류 예외 처리기가 활성화됩니다.
(주석 참고: 이 옵션을 비활성화하면... 흰머리가 더 많아질 수 있습니다. ;-) ) 설정하지 않으면 커널이 상황을 처리할 수 없으며 자동으로 재부팅됩니다.
설정했다면 실제로 4.18에서 삼중 실패에 직면하게 됩니다. (적어도 두 번째 추적 덤프가 시작될 것으로 예상했기 때문에 이것이 가능성이 없다고 생각합니다.) => CONFIG_DOUBLEFAULT가 4.18 구성에 설정되지 않은 것 같습니다.

5.15에서는 왜 이런 일이 발생하지 않습니까?:

5.8부터 x32 아키텍처가 이중 오류를 처리하는 이전 방식을 유지하는 경우 x86_64 아키텍처는 다음 기능의 이점을 누릴 수 있습니다(i386에서는 사용할 수 없음).인터럽트 스택 테이블. 이를 통해 이중 오류 또는 NMI와 같은 지정된 이벤트에 대해 새 스택으로 자동 전환할 수 있습니다.
초기 메모리 오류는 스택(원자적 컨텍스트에서 예약됨)과 관련되므로 추적 덤프에서는 이중 오류가 발생하고 백트레이스 덤프에서는 삼중 오류가 발생합니다.
x86_64의 5.8부터 메모리 오류 없이 새로운 스택으로 전환할 수 있는 가능성은 이중 오류를 원활하게 처리하는 데 도움이 됩니다.

Question 3

커널과 아무 관련이 없으며 이전 커널 대신 최신 커널로 해당 메모리 주소에 도달하는 하드웨어 메모리 버그일 뿐이라고 생각합니다. 기억력 테스트를 해본 적이 있나요?

Answer

커널과 아무 관련이 없으며 이전 커널 대신 최신 커널로 해당 메모리 주소에 도달하는 하드웨어 메모리 버그일 뿐이라고 생각합니다. 기억력 테스트를 해본 적이 있나요?

Question 4

BUG_ON(true)커널 BUG를 유발하는 것 같습니다 .invalid opcode 0000

이런 경우라면,

BUG_ON(!in_nmi());

이 덤프를 트리거하십시오.

Answer

BUG_ON(true)커널 BUG를 유발하는 것 같습니다 .invalid opcode 0000

이런 경우라면,

BUG_ON(!in_nmi());

이 덤프를 트리거하십시오.

mce 패닉 @4.18 커널이 @5.15 커널을 통과하는 이유는 무엇입니까?

답변1

답변2

답변3

답변4

관련 정보