무작위 충돌, kdump가 트리거되지 않음, 시스템이 다시 시작되지 않음

무작위 충돌, kdump가 트리거되지 않음, 시스템이 다시 시작되지 않음

나는 몇 달 동안이 문제를 겪었습니다. 저는 개인용 컴퓨터에서 Linux를 실행하고 있습니다. 임의의 시간(하루 최대 3회)에 시스템이 완전히 정지되고 하드 정전 이외의 입력에 응답하지 않게 됩니다. 마우스 커서 움직임도 없고 SysRq 매직 키도 없으며 Num Lock을 눌러도 키보드의 LED가 전환되지 않습니다.

나는 하드웨어 문제가 이런 종류의 일의 원인인 경우가 많다는 것을 알고 있습니다. 하지만:

  • PassMark MemTest86이 0개의 오류 또는 경고와 함께 성공했습니다.
  • smartctlbadblocks오류나 경고가 0개로 성공합니다 .
  • 과도한 온도나 팬 문제는 전혀 관찰되지 않았습니다.
  • 내 그래픽 카드는 AMD 카드입니다(즉, 이는 NVIDIA 카드와 관련된 문제 중 하나가 아닙니다.)
  • 저는 수년 동안 이 하드웨어에서 Windows를 실행해 왔지만 비슷한 문제가 발생하지 않았습니다.

문제를 진단하기 위해 kdump를 설정했습니다. 를 사용하여 커널 패닉을 일으키면 커널을 덤프 echo "c" > /proc/sysrq-trigger하지만 미친 정지가 발생하면 kdump를 수행하거나 재부팅하지 않고 무기한 정지 상태를 유지합니다.

sysctl구성은 다음 변수를 설정합니다.

kernel.hardlockup_panic = 1
kernel.hung_task_check_count = 4194304
kernel.hung_task_check_interval_secs = 0
kernel.hung_task_panic = 1
kernel.hung_task_timeout_secs = 10
kernel.hung_task_warnings = 10
kernel.nmi_watchdog = 1
kernel.panic = 60
kernel.panic_on_io_nmi = 1
kernel.panic_on_oops = 1
kernel.panic_on_rcu_stall = 1
kernel.panic_on_unrecovered_nmi = 1
kernel.panic_on_warn = 1
kernel.softlockup_panic = 1
kernel.soft_watchdog = 1
kernel.unknown_nmi_panic = 1
kernel.watchdog = 1
kernel.watchdog_cpumask = 0-3       # my system has 4 cores
kernel.watchdog_thresh = 10

Linux 커널 4.19 및 5.0을 실행하는 Ubuntu 18.04와 Linux 커널 4.19 및 5.3을 실행하는 Arch Linux에서 이러한 정지 현상이 관찰되었습니다. 최신 Intel 마이크로코드 패키지를 실행하고 있습니다. Xorg 로그 또는 .xsession-errors에는 이러한 정지에 해당하는 항목이 없습니다.

아이디어가 부족해요. 다음에는 무엇을 시도해야 합니까?

답변1

이번 동결은 Linux 커널에서 해결되지 않은 버그와 밀접한 관련이 있습니다(https://bugzilla.kernel.org/show_bug.cgi?id=109051) 일부 Intel 프로세서의 전원 관리 및 유휴 상태와 관련이 있습니다. 내 시스템은 2013년에 제조된 i3-3220T CPU를 사용하는데, 이 CPU는 이 버그의 영향을 받는 프로세서와 거의 동일한 세대인 것으로 보입니다.

오류 스레드에서 제안한 해결 방법은 intel_idle.max_cstate=1시작 명령줄에 추가하는 것이었습니다. 이 작업을 수행한 후 내 시스템은 한 달 동안 멈추지 않았습니다.

관련 정보