프로덕션 시스템 상태를 모니터링하고 충돌 보고서를 생성하는 방법 등

프로덕션 시스템 상태를 모니터링하고 충돌 보고서를 생성하는 방법 등

나는 꽤 괜찮은 하드웨어(CPU는 24/48 코어를 갖춘 Threadripper 2970WX)에서 실행되는 홈 서버를 가지고 있습니다. 여기에는 다양한 소프트웨어가 포함된 일부 가상 머신, 일부 사무용 소프트웨어뿐만 아니라 서버, 로봇 및 기타 여러 도구가 실행됩니다. 가끔 컴퓨터가 갑자기 다운되는 경우가 있는데, 이는 프로덕션 시스템이고 여러 사람이 의존하는 시스템이기 때문에 좋지 않습니다. 충돌이 거의 발생하지 않으며 대부분의 시간 동안 집에 있으면 즉시 다시 시작할 수 있습니다. 하지만 내 시스템 상태를 모니터링하고 시스템 오류를 미리 경고하거나 충돌 보고서를 생성하여 문제의 정확한 원인과 해결 방법을 알 수 있는 도구가 있는지 알고 싶습니다. 이를 처리할 수 있는 도구(GUI 등)가 있습니까? 다양한 로그 파일을 수동으로 크롤링하는 것은 프로덕션 시스템에 좋은 옵션이 아니라고 생각합니다.

나는 Debian 10 Buster를 호스트 시스템과 모든 중요한 가상 머신으로 실행합니다.

답변1

kdump라는 유틸리티가 있습니다. 시스템에서 이를 구성할 수 있으며 시스템이 충돌할 때마다 정시 시스템 상태가 크래시 덤프 폴더에 캡처됩니다. 이것이 제가 사용해 본 것이고 추천할 수 있는 것입니다. 시스템 충돌 원인을 알고 있는 경우 스크립트를 작성하여 문제를 해결하고 크론 작업으로 예약할 수 있습니다.

관련 정보