체계:
Linux v22017032713145956 3.16.0-4-amd64 #1 SMP Debian 3.16.39-1+deb8u2 (2017-03-07) x86_64 GNU/Linux
KVM 가상화가 적용된 노드에서 실행되는 가상화 서버입니다.
내가 뭘 한거지:
- 팩토리오 게임 서버를 운영하고 싶습니다. 그래서 다운받아서 실행해봤습니다. (이때가 3월이었음)
- 며칠 후 서버가 다운되었습니다. 서버가 실행 중인 노드와 관련 이 있는지 지원을 요청하는 커널 메시지 외에는
rcu_sched detected stalls on cpu
이에 대한 기록이 없습니다 . - 지원팀에서는 I/O 스케줄러를 다음으로 설정해야 한다고 말했습니다.
noop
- 그에 따라 스케줄러를 설정했습니다(그러나 시스템 파일에 noop을 에코하여 일시적으로만).
- 한 달 정도는 모든 게 괜찮았어
- 나는 Debian 저장소에서 정기적인 업데이트를 받습니다(jessie와 jessie 업데이트만 있고, 백포트나 실험적인 내용은 없습니다).
- 나는 Froxlor 및 GitLab 저장소에서 정기적으로 업데이트합니다.
- 4월 29일 오전 4시쯤, 알 수 없는 이유로 서버가 또 다운됐다.
- 5월 1일에 노드 제어판에서 서버를 다시 시작했습니다.
- 그날 또 사고가 났습니다. 이번에는 Factorio 서버를 시작하지도 않았고 I/O 스케줄러를 변경하지도 않았습니다.
추가 정보
핑 응답
모니터링에서는 서버가 다음 사이의 ping에 응답하지 않는다고 보고합니다.
- 2017년 4월 29일 04:07:30 -> 2017년 4월 30일 09:55:46
- 05-01-2017 11:08:52 -> 05-01-2017 11:16:54
커널 로그
/var/log/kern.log
이 기간 내에:
질문 시간
문제가 무엇입니까? 아무것도 설치한 기억이 없습니다.
이 메시지를 어떻게 디버깅할 수 있나요 rcu_sched detected stalls
?
5월 7일 업데이트
방금 친구로부터 서버가 이상하게 작동한다는 문자 메시지를 받았습니다. 그래서 로그를 확인해 보니 또 일시정지가 있었습니다. 업로드했어요최신 로그.
5월 8일 업데이트
방금 memtest86+를 실행했지만 아무것도 찾지 못했습니다. 그런데 지난 31일 동안의 CPU 그래프를 확인한 결과 흥미로운 사실을 발견했습니다. 서버가 처음으로 핑에 응답하지 않게 되면 다른 모든 코어가 유휴 상태인 동안 코어 2의 CPU 로드가 극도로 증가합니다. CPU0의 최고점은 memtest입니다.
6월 7일 업데이트됨
가동 시간 보고서:
10:05:05 up 27 days, 20:50, 1 user, load average: 0.23, 0.25, 0.18
하지만 GitLab을 닫았습니다. GitLab이 데비안에서 문제를 일으킨 경험이 있는 사람이 있나요?
답변1
귀하의 로그에 따르면 귀하의 문제는 KVM 가상 머신에 설치된 VirtualBox 게스트 추가로 인한 것일 수 있으며 일종의 충돌이 있는 것 같습니다.
어느 시점에서 vboxdrv
커널 모듈이 제거되고 이전 패키지의 kvm/virtio 드라이버로 교체된 것 같습니다.제 생각에는, 그러나 어떤 이유에서인지 새 버전에서는 이런 일이 발생하지 않는 것 같습니다.
말씀하신 대로 로그를 제공한 후 Virtual Box 구성 요소를 제거했습니다.
IMO, 당신은 올바른 조치를 취했습니다. 이제 며칠을 두고 이런 일이 다시 발생하는지 확인하십시오.
답변2
로그를 보면 몇 가지 NMI가 있습니다. 참조:https://en.wikipedia.org/wiki/Non-maskable_interrupt
하드웨어도 확인하는 것이 좋습니다.