Proxmox 시스템이 매일 충돌합니다.

Proxmox 시스템이 매일 충돌합니다.

이른 아침부터 시스템 충돌이 발생했습니다. 00:00부터 08:00 사이.

로그를 살펴보면 각 코어가 크롤링 속도로 느려지고 결국 전체 시스템이 정지될 때까지 충돌하는 것처럼 보입니다. 첫 번째 오류부터 시스템 충돌까지 약 25분 정도 소요됩니다. 이러한 오류로 인해 메모리 문제가 생각나지만 다른 결함으로 인한 것인지는 확실하지 않습니다.

시스템은 듀얼 E5-2630 V2 및 16X 8GB DDR3을 갖춘 Super Micro X9DRW-IF입니다.

운영 체제는 Proxmox 최신 버전입니다.

핵심:
Linux pve1 4.15.18-10-pve #1 SMP PVE 4.15.18-32 (Sat, 19 Jan 2019)

PERF 인터럽트가 점점 더 오래 걸리기 시작했고 메모리 오류가 발생하기 시작했습니다. 이러한 오류 중 약 20개는 시스템이 정지되기 전 20분~1시간 동안 발생합니다. 내가 이해한 바로는 PERF는 단지 CPU 조절일 뿐입니다. 가능한 가장 낮은 속도로 조절되며, 이 시점에서 시스템은 크롤링 상태로 크롤링됩니다.

Apr 28 07:36:05 pve1 kernel: [36497.018818] perf: interrupt took too long (6737393 > 4247631), lowering kernel.perf_event_max_sample_rate to 250
Apr 28 07:36:05 pve1 kernel: [36497.018914] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Apr 28 07:36:05 pve1 kernel: [36497.018926] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Apr 28 07:36:05 pve1 kernel: [36497.019012] {1}[Hardware Error]: event severity: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019112] {1}[Hardware Error]:  Error 0, type: corrected
Apr 28 07:36:05 pve1 kernel: [36497.019115] {1}[Hardware Error]:  fru_text: CorrectedErr
Apr 28 07:36:05 pve1 kernel: [36497.019119] {1}[Hardware Error]:   section_type: memory error
Apr 28 07:36:05 pve1 kernel: [36497.019125] {1}[Hardware Error]:   node: 1 device: 0 
Apr 28 07:36:05 pve1 kernel: [36497.019128] {1}[Hardware Error]:   error_type: 2, single-bit ECC
Apr 28 07:36:05 pve1 kernel: [36497.019297] ghes_edac: Internal error: Can't find EDAC structure
Apr 28 07:36:06 pve1 pve-firewall[2311]: firewall update time (13.994 seconds)
Apr 28 07:36:10 pve1 kernel: [36502.054892] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.489 msecs
Apr 28 07:36:17 pve1 pve-firewall[2311]: firewall update time (9.985 seconds)
Apr 28 07:36:20 pve1 pvestatd[2315]: got timeout
Apr 28 07:36:26 pve1 pvestatd[2315]: status update time (33.041 seconds)
Apr 28 07:36:28 pve1 pve-firewall[2311]: firewall update time (11.073 seconds)
Apr 28 07:36:50 pve1 kernel: [36542.038771] INFO: NMI handler (perf_event_nmi_handler) took too long to run: 451.686 msecs
Apr 28 07:36:56 pve1 pve-firewall[2311]: firewall update time (27.943 seconds)
Apr 28 07:36:56 pve1 pvestatd[2315]: status update time (30.979 seconds)
Apr 28 07:37:03 pve1 pve-firewall[2311]: firewall update time (6.031 seconds)

https://pastebin.com/9Z0A49xR

이 시점에서는 실제로 무슨 일이 일어났는지 알고 싶습니다.

답변1

내 코로케이션 호스트는 서버를 가져와서 모든 DIMM을 다시 설치했습니다.

이런 일이 3일 동안 일어나지 않았습니다. 안정적인 연결이 부족하여 연결 속도가 느려지고 잘못된 주소를 건너뛰려고 하면 시스템이 충돌할 때까지 점점 더 많은 데이터가 손상되는 것 같습니다. 연결이 느슨하면 메모리 전압이 떨어져 변동이 발생할 수도 있습니다. 전압은 범위 내에 유지되지만 이로 인해 전압이 불안정해집니다.

관련 정보