혼자서는 해결할 수 없는 문제가 발생하여 여기에서 도움을 받기로 결정했습니다.
소개하다:
몇 주 후에 새 집으로 이사하면서 NAS의 일부 하드웨어를 업데이트하기로 결정했습니다.
- 미니 Itx 케이스
- Intel Celeron g4900(필요한 경우 통합 그래픽 사용)
- 2x4GB DDR4-2400
- ZFS Z1에 4x3TB NAS 드라이브 Wd Red 설정
- ASUS H310I-PLUS 마더보드
- 커세어 포스 mp500 120GB 부팅 nvme
일부 부품을 리퍼브한 하드웨어의 도움으로 다음 하드웨어로 변경했습니다.
- 2U 서버 랙
- Haiyun 초점 650w 전원 공급 장치
- 4x4GB SK 하이닉스 DDR4 2400 ECC
- Intel Xeon E5 2683 V4 SR2JT, 2.1GHz, 16 코어, LGA2011-3(리퍼브)
- 메카닉 X99 K9 마더보드
- 녹투아 NH-L12S CPU 쿨러
- Nvidia GT 710 로우 프로파일(리퍼브)
우선, 여기에 있는 모든 문제는 리퍼브 하드웨어나 마더보드의 결함이라고 말하기 쉽다는 것을 알고 있지만 Ubuntu Live USB 및 일부 CPU/Mem 로드에 문제가 발생한 후 이러한 모든 부품/스트레스 테스트를 테스트했습니다. 라이브 출시, 모든 것이 잘 진행되고 있습니다 ...
질문:
TV에 HDMI 케이블을 연결하여 부팅하면 녹색으로 바뀌고 흰색 텍스트가 표시된 후 시스템이 정지됩니다.
다음은 이미 grub.cfg 파일의 일부 설정을 변경하려고 시도하는 영상입니다(quiet 옵션 제거 및 nomodeset 플래그 설정).
시스템이 100% 정지되고 바로가기도 작동하지 않으며 콘솔도 없기 때문에 시스템을 복원하는 유일한 방법은 재설정 버튼인 것 같습니다...
로그 및 설문조사:
이것은 Live USB를 사용하여 성공적으로 추출한 부팅 로그입니다.
이 로그에서는 다음 줄이 문제인지 알 수 없습니다(나누기 오류).
nvidiafb: Unable to detect display type...
nov. 29 02:03:41 NomadNas kernel: ...Using default of CRT
nov. 29 02:03:41 NomadNas kernel: nvidiafb: Unable to detect which CRTCNumber...
nov. 29 02:03:41 NomadNas kernel: ...Defaulting to CRTCNumber 0
nov. 29 02:03:41 NomadNas kernel: nvidiafb: Using CRT on CRTC 0
nov. 29 02:03:41 NomadNas kernel: fbcon: NV28 (fb0) is primary device
nov. 29 02:03:41 NomadNas kernel: divide error: 0000 [#1] SMP PTI
nov. 29 02:03:41 NomadNas kernel: CPU: 0 PID: 389 Comm: kworker/0:3 Tainted: P O 5.4.143-1-pve #1
nov. 29 02:03:41 NomadNas kernel: Hardware name: Default string Default string/X99-k9, BIOS 5.11 01/11/2021
nov. 29 02:03:41 NomadNas kernel: Workqueue: events work_for_cpu_fn
nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6
nov. 29 02:03:41 NomadNas kernel: RSP: 0018:ffffaecd009dfa80 EFLAGS: 00010246
nov. 29 02:03:41 NomadNas kernel: RAX: 0000000000000000 RBX: ffff95e08d5aa510 RCX: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: RDX: 0000000000000000 RSI: ffffaecd009dfab8 RDI: ffff95e08d5aa418
nov. 29 02:03:41 NomadNas kernel: RBP: ffffaecd009dfa88 R08: ffffaecd009dfabc R09: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: R10: ffff95e08d5aa418 R11: 0000000000062570 R12: 0000000000000020
nov. 29 02:03:41 NomadNas kernel: R13: 0000000000006247 R14: 0000000000000010 R15: 0000000000000068
nov. 29 02:03:41 NomadNas kernel: FS: 0000000000000000(0000) GS:ffff95e09f400000(0000) knlGS:0000000000000000
nov. 29 02:03:41 NomadNas kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
nov. 29 02:03:41 NomadNas kernel: CR2: 00007f323bf6a22d CR3: 00000005c660a005 CR4: 00000000003606f0
nov. 29 02:03:41 NomadNas kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
nov. 29 02:03:41 NomadNas kernel: DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
nov. 29 02:03:41 NomadNas kernel: Call Trace:
nov. 29 02:03:41 NomadNas kernel: NVCalcStateExt+0x1c7/0x950 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: ? _cond_resched+0x19/0x30
nov. 29 02:03:41 NomadNas kernel: ? _cond_resched+0x19/0x30
nov. 29 02:03:41 NomadNas kernel: ? kmem_cache_alloc_trace+0x172/0x240
nov. 29 02:03:41 NomadNas kernel: nvidiafb_set_par+0x49e/0xa40 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: fbcon_init+0x2ad/0x570
nov. 29 02:03:41 NomadNas kernel: visual_init+0xd5/0x130
nov. 29 02:03:41 NomadNas kernel: do_bind_con_driver+0x1ed/0x2e0
nov. 29 02:03:41 NomadNas kernel: do_take_over_console+0x129/0x1a0
nov. 29 02:03:41 NomadNas kernel: do_fbcon_takeover+0x5c/0xb0
nov. 29 02:03:41 NomadNas kernel: fbcon_fb_registered+0x113/0x120
nov. 29 02:03:41 NomadNas kernel: register_framebuffer+0x230/0x310
nov. 29 02:03:41 NomadNas kernel: nvidiafb_probe.cold.12+0x78e/0x80a [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: local_pci_probe+0x47/0x80
nov. 29 02:03:41 NomadNas kernel: work_for_cpu_fn+0x1a/0x30
nov. 29 02:03:41 NomadNas kernel: process_one_work+0x20f/0x3d0
nov. 29 02:03:41 NomadNas kernel: worker_thread+0x233/0x400
nov. 29 02:03:41 NomadNas kernel: kthread+0x120/0x140
nov. 29 02:03:41 NomadNas kernel: ? process_one_work+0x3d0/0x3d0
nov. 29 02:03:41 NomadNas kernel: ? kthread_park+0x90/0x90
nov. 29 02:03:41 NomadNas kernel: ret_from_fork+0x35/0x40
nov. 29 02:03:41 NomadNas kernel: Modules linked in: snd_hda_codec_hdmi(+) intel_rapl_msr intel_rapl_common uas usb_storage input_leds joydev usbkbd x86_pkg_temp_thermal intel_powerclamp snd_hda_codec_realtek kvm_intel snd_hda_codec_generic ledtrig_audio kvm irqbypass snd_hda_intel crct10dif_pclmul snd_intel_dspcfg crc32_pclmul ghash_clmulni_intel snd_hda_codec aesni_intel snd_hda_core crypto_simd snd_hwdep cryptd glue_helper snd_pcm nvidiafb(+) snd_timer vgastate rapl snd fb_ddc intel_cstate serio_raw pcspkr mxm_wmi i2c_algo_bit soundcore mac_hid zfs(PO) zunicode(PO) zzstd(O) zlua(O) zavl(PO) icp(PO) zcommon(PO) znvpair(PO) spl(O) coretemp nfsd auth_rpcgss nfs_acl lockd grace sunrpc ip_tables x_tables autofs4 hid_generic usbmouse usbhid hid btrfs zstd_compress raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx xor raid6_pq libcrc32c raid1 raid0 multipath linear psmouse ahci xhci_pci r8169 ehci_pci i2c_i801 libahci lpc_ich realtek xhci_hcd ehci_hcd wmi
nov. 29 02:03:41 NomadNas kernel: ---[ end trace 91e53edc0a767313 ]---
nov. 29 02:03:41 NomadNas kernel: RIP: 0010:nvGetClocks+0x186/0x280 [nvidiafb]
nov. 29 02:03:41 NomadNas kernel: Code: 0f 00 00 3d 00 03 00 00 74 73 3d 30 03 00 00 74 6c 41 8b 89 04 05 00 00 0f b6 c5 44 0f b6 c9 c1 e9 10 0f af c2 31 d2 83 e1 0f <41> f7 f1 d3 e8 89 06 48 8b 87 40 11 00 00 8b 88 00 05 00 00 0f b6
커뮤니티에 대한 질문:
우선, 시간을 내어 도와주신 모든 분들께 감사드립니다. 모든 부팅 드라이브를 지우고 새 설정(설정해야 하는 모든 것, docker, ZFS...)을 시작하기 전에 여러분이 마지막 희망입니다. ).
- 라이브 USB 배포판이 아닌 시스템에서 콘솔을 작동하기 위해 최소한의 작업 환경(예: nVidia 드라이버가 로드되지 않았거나 nomodeset을 시도했지만 작동하지 않음)을 갖도록 하려면 어떻게 해야 합니까?
- 이 질문 뒤에도 여전히 일부 로그 줄이 있으므로 이것이 실제로 이 "분할 오류"와 관련이 있습니까?
- OMV를 다시 설치하고 거의 모든 설정을 잃는 것이 유일한 선택입니까? (예, 여전히 일부 .config 파일을 백업할 수 있지만...)
- 새로 설치하면 작동할 가능성이 있나요? (하드웨어/OMV가 호환되지 않나요??)
도움을 주셔서 감사합니다 :)
답변1
마지막으로 ./etc/modprobe.d/openmediavault.conf를 사용하여 nvidiafb 모듈을 일시적으로 블랙리스트에 추가하여 작동하게 만들었습니다.
blacklist nvidiafb
나는 또한 다음을 추가했습니다.
blacklist sb_edac
하지만 문제가 되지 않는다고 생각하므로 목록에 표시된 ECC 메시지는 단지 경고일 뿐이므로 이 줄을 삭제하는 것이 좋습니다. 이 게시물에 답변하지 않으면 마지막 블랙리스트 줄은 쓸모가 없다고 생각하십시오 :) .