저는 Arch Linux, 커널 5.17.3을 실행하고 있습니다(이 문제는 여러 버전에서 발생했지만). 며칠마다 무작위로 전체 시스템이 정지되는 현상이 발생합니다. 커널 로그는 다양하지만 가장 일반적인 로그는 다음과 같습니다.
...
Apr 02 05:04:20 starship kernel: BUG: scheduling while atomic: swapper/0/0/0x7fff0001
Apr 02 05:04:20 starship kernel: Modules linked in: tun uinput btrfs blake2b_generic xor raid6_pq dm_crypt cbc encrypted_keys trusted asn1_encoder tee dm_mod rfcomm snd_seq_dummy snd_hrtimer snd_seq hid_logitech_hidpp xt_CHECKSUM xt_MASQUERADE nft_chain_nat nf_nat bridge stp llc cmac algif_hash algif_skcipher af_alg bnep ip6t_REJECT nf_reject_ipv6 xt_hl mousedev hid_logitech_dj ip6_tables joydev ip6t_rt ipt_REJECT nf_reject_ipv4 xt_LOG nf_log_syslog xt_comment xt_multiport nft_limit btusb btrtl btbcm xt_limit btintel xt_addrtype btmtk xt_tcpudp snd_usb_audio bluetooth xt_conntrack nf_conntrack snd_usbmidi_lib nf_defrag_ipv6 snd_rawmidi nf_defrag_ipv4 snd_seq_device usbhid ecdh_generic nft_compat nf_tables libcrc32c nfnetlink i2c_dev i2c_smbus nvidia_uvm(POE) nvidia_drm(POE) nvidia_modeset(POE) iwlmvm nvidia(POE) mac80211 intel_rapl_msr intel_rapl_common libarc4 edac_mce_amd eeepc_wmi kvm_amd iwlwifi asus_wmi sparse_keymap kvm iwlmei platform_profile irqbypass crct10dif_pclmul crc32_pclmul video wmi_bmof
Apr 02 05:04:20 starship kernel: mxm_wmi asus_wmi_sensors ghash_clmulni_intel cfg80211 aesni_intel crypto_simd snd_hda_codec_realtek cryptd rfkill snd_hda_codec_generic vfat sp5100_tco fat rapl ledtrig_audio pcspkr snd_hda_codec_hdmi ccp i2c_piix4 k10temp igb mei e1000e tpm_crb dca tpm_tis tpm_tis_core snd_hda_intel tpm snd_intel_dspcfg gpio_amdpt rng_core snd_intel_sdw_acpi gpio_generic pinctrl_amd snd_hda_codec snd_hda_core snd_hwdep wmi mac_hid acpi_cpufreq snd_aloop snd_pcm snd_timer snd soundcore v4l2loopback_dc(OE) videodev mc crypto_user fuse bpf_preload ip_tables x_tables ext4 crc32c_generic crc16 mbcache jbd2 xhci_pci crc32c_intel xhci_pci_renesas
Apr 02 05:04:20 starship kernel: CPU: 0 PID: 0 Comm: swapper/0 Tainted: P OE 5.17.1-arch1-1 #1 0ea933cb6bfe82a8dc16ab834a4bccdd297f98b7
Apr 02 05:04:20 starship kernel: Hardware name: System manufacturer System Product Name/ROG STRIX B450-F GAMING, BIOS 4801 03/02/2022
Apr 02 05:04:20 starship kernel: Call Trace:
Apr 02 05:04:20 starship kernel: <TASK>
Apr 02 05:04:20 starship kernel: dump_stack_lvl+0x48/0x5e
Apr 02 05:04:20 starship kernel: __schedule_bug.cold+0x4c/0x58
Apr 02 05:04:20 starship kernel: __schedule+0xd55/0x10a0
Apr 02 05:04:20 starship kernel: ? hrtimer_start_range_ns+0x272/0x350
Apr 02 05:04:20 starship kernel: schedule_idle+0x26/0x40
Apr 02 05:04:20 starship kernel: do_idle+0x16d/0x260
Apr 02 05:04:20 starship kernel: cpu_startup_entry+0x19/0x20
Apr 02 05:04:20 starship kernel: start_kernel+0x9a2/0x9c9
Apr 02 05:04:20 starship kernel: secondary_startup_64_no_verify+0xd5/0xdb
Apr 02 05:04:20 starship kernel: </TASK>
Apr 02 05:04:20 starship kernel: [UFW BLOCK] IN=enp10s0 OUT= MAC=04:d4:c4:55:3e:fc:98:09:cf:93:64:22:08:00 SRC=192.168.4.7 DST=192.168.4.2 LEN=1909 TOS=0x00 PREC=0x00 TTL=64 ID=44904 PROTO=UDP SPT=40665 DPT=1716 LEN=1889
...
이것은 때로는 로그의 끝 부분에 가까울 때도 있지만 때로는 몇 줄(수천) 줄이 지나야 수많은 불만 사항이 접수될 때도 있습니다 systemd
. 이것이 내 충돌에 문제가 될 수 있습니까? 다른 것을 찾아야 할까요? 이것이 문제가 될 수 있다면 어떻게 디버깅해야 합니까? 내 컴퓨터에 잘못 작성된 프로그램/드라이버/커널 모듈일 수 있다고 생각하지만, 그것이 어느 것인지 알아내려면 어디서부터 시작해야 할지 모르겠습니다.
이런 일이 발생했을 때 컴퓨터를 사용하고 있다면 일반적으로 응용 프로그램이 먼저 정지되고 그 다음 데스크톱 환경(Cinnamon)이 거의 즉시 정지되지만 일반적으로 약 30초 동안 마우스를 움직일 수 있다가 완전히 정지되고 하드하게 작동해야 합니다. 초기화 . 컴퓨터에서 떨어져 있으면 핑에 응답하지 않거나, 돌아오면 "실행"되지만 절전 모드/화면 보호기/DE가 유휴 상태일 때 수행하는 모든 작업에서 깨어나지 않으며 하드 재설정해야 합니다. .
내가 시도한 것(대부분 하드웨어 문제일 수 있다는 예감/제안에서 비롯됨):
- BIOS 업데이트
- CPU 유휴 상태 비활성화(Ryzen CPU/칩셋의 일반적인 문제일 수 있음을 확인한 후)
- 다운클럭 RAM(3600MHz 광고 속도에서 마더보드가 지원하는 속도인 3200MHz까지)
- CPU(mprime 사용) 및 RAM(Memtest86+ 부팅 실패로 Memtest86 사용)에 대한 스트레스 테스트를 실시한 결과 버그가 발견되지 않았습니다.
이것이 여전히 하드웨어 문제입니까? 아니면 어디서 디버깅/소프트웨어 문제 찾기를 시작해야 합니까?
도움이 된다면 더 많은 정보를 제공할 수 있습니다. 또한, 이 질문을 할 수 있는 더 좋은 곳이 있으면 알려주시기 바랍니다. 감사해요!
답변1
이게 운이 좋은 걸까요?
내 생각에는 다음과 같은 것을 본 것 같습니다.
Jun 02 11:50:34 three kernel: BUG: scheduling while atomic: swapper/0/0/0x00000002
Jun 02 11:50:34 three kernel: Modules linked in: rfcomm xt_conntrack xt_MASQUERADE nf_conntrack_netlink nfnetlink xt_addrtype iptable_filter iptable_nat nf_nat nf_conntrack nf_defrag_ipv6 nf_defrag_ipv4 libcrc32c br_netfilter bridge stp llc overlay uvcvideo videobuf2_vmalloc videobuf2_memops videobuf2_v4l2 snd_usb_audio videobuf2_common snd_usbmidi_lib videodev snd_rawmidi snd_seq_device hid_jabra mc gs_usb can_dev cmac algif_hash algif_skcipher af_alg bnep nct6775 hwmon_vid btusb btrtl btbcm btintel btmtk bluetooth nls_iso8859_1 mousedev hid_logitech_hidpp vfat nzxt_kraken2 joydev ecdh_generic fat usbhid intel_rapl_msr intel_rapl_common iwlmvm snd_hda_codec_realtek edac_mce_amd snd_hda_codec_generic wmi_bmof wl(POE) kvm_amd ledtrig_audio mac80211 snd_hda_codec_hdmi snd_hda_intel amdgpu snd_intel_dspcfg libarc4 kvm snd_intel_sdw_acpi snd_hda_codec irqbypass iwlwifi snd_hda_core crct10dif_pclmul crc32_pclmul snd_hwdep ghash_clmulni_intel iwlmei snd_pcm gpu_sched aesni_intel snd_timer drm_ttm_helper
Jun 02 11:50:34 three kernel: crypto_simd ttm cryptd snd rapl cfg80211 mei ccp drm_dp_helper soundcore pcspkr igb sp5100_tco k10temp rng_core i2c_piix4 dca gpio_amdpt mac_hid rfkill wmi gpio_generic pinctrl_amd acpi_cpufreq vboxnetflt(OE) vboxnetadp(OE) vboxdrv(OE) i2c_dev crypto_user fuse bpf_preload ip_tables x_tables ext4 crc32c_generic crc16 mbcache jbd2 nvme crc32c_intel xhci_pci nvme_core xhci_pci_renesas
Jun 02 11:50:34 three kernel: CPU: 0 PID: 0 Comm: swapper/0 Tainted: P OE 5.18.1-arch1-1 #1 aeb6a372044721fe869dfc17901d8ed9fc452f1a
Jun 02 11:50:34 three kernel: Hardware name: Micro-Star International Co., Ltd. MS-7B85/B450 GAMING PRO CARBON AC (MS-7B85), BIOS 1.B0 11/08/2019
Jun 02 11:50:34 three kernel: Call Trace:
Jun 02 11:50:34 three kernel: <TASK>
Jun 02 11:50:34 three kernel: dump_stack_lvl+0x48/0x5d
Jun 02 11:50:34 three kernel: __schedule_bug.cold+0x4b/0x57
Jun 02 11:50:34 three kernel: __schedule+0xdee/0x11f0
Jun 02 11:50:34 three kernel: schedule_idle+0x2a/0x40
Jun 02 11:50:34 three kernel: cpu_startup_entry+0x1d/0x20
Jun 02 11:50:34 three kernel: rest_init+0xc8/0xd0
Jun 02 11:50:34 three kernel: arch_call_rest_init+0xe/0x19
Jun 02 11:50:34 three kernel: start_kernel+0x971/0x997
Jun 02 11:50:34 three kernel: secondary_startup_64_no_verify+0xd5/0xdb
Jun 02 11:50:34 three kernel: </TASK>
두 목록에 모두 나타나는 모듈 목록은 다음과 같습니다.
bluetooth
bnep
bridge
btbcm
btintel
btmtk
btrtl
btusb
ccp
cfg80211
cmac
crc16
cryptd
dca
ext4
fat
fuse
igb
irqbypass
iwlmei
iwlmvm
iwlwifi
jbd2
joydev
k10temp
kvm
libarc4
libcrc32c
llc
mac80211
mbcache
mc
mei
mousedev
nfnetlink
OE
pcspkr
POE
rapl
rfcomm
rfkill
snd
soundcore
stp
usbhid
vfat
videodev
wmi
나에게 있어서 이것은 일반적으로 하드 잠금이 발생하기 몇 분 전에 커널 로그에서 발생하며 로그에는 아무 것도 없습니다. 나도 아치에 있고 이것은 몇 달 동안 계속되었습니다. 평균 1~3일에 한 번씩 발생합니다.
또한 잘못된 RAM 스틱 등을 배제하기 위해 memtest를 실행해 보았지만 현재로서는 그것이 Linux라고 확신합니다.