Dell PowerEdge R210에서 Arch Linux를 실행하고 있습니다. 실행되는 스크립트가 거의 없어 로드가 높지 않습니다. 웹 서비스와 같은 소프트웨어는 없으며 기본 시스템만 있습니다. 서버는 아무런 변화 없이 오랫동안 잘 작동했지만, 며칠에 한 번씩 무작위로 종료되기 시작했습니다. 서버는 신뢰할 수 있는 UPS로 보호되지만, UPS 없이 전원에 직접 연결해도 서버가 계속 종료되므로 전원 문제는 아닙니다. 서버가 종료될 때까지 매분마다 센서 유틸리티를 실행하여 온도를 모니터링했습니다. 문제 없이 모든 센서의 온도가 30도에 가까운 것으로 나타났습니다. 그럼 발열 문제는 아니네요. 섀시는 ipmi가 활성화되어 있으므로 종료할 때마다 "power on" ipmi 명령을 실행할 수 있으며 서버가 부팅되어 정상적으로 실행됩니다.
"restart_cause"에는 아무것도 없습니다:
$ ipmitool -H 10.5.5.32 -U root -I lanplus chassis restart_cause
System restart cause: unknown
섀시 로그에 아무것도 없습니다:
$ ipmitool -H 10.5.5.32 -U root -I lanplus sel list
1 | 07/23/2019 | 06:33:43 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
2 | 07/24/2019 | 09:51:50 | Physical Security #0x73 | General Chassis intrusion () | Asserted
3 | Pre-Init |0000000032| Physical Security #0x73 | General Chassis intrusion () | Asserted
4 | Pre-Init |0000000037| Physical Security #0x73 | General Chassis intrusion () | Deasserted
5 | 07/24/2019 | 11:29:10 | Physical Security #0x73 | General Chassis intrusion () | Asserted
6 | 07/24/2019 | 11:29:15 | Physical Security #0x73 | General Chassis intrusion () | Deasserted
다음은 "최종" 명령 출력입니다.
$ last -x
user pts/0 10.5.5.25 Wed Jul 31 08:31 - 09:38 (01:07)
root ttyS1 Wed Jul 31 08:23 - 09:38 (01:14)
reboot system boot 5.2.1-arch1-1-AR Wed Jul 31 08:23 - 09:38 (01:15)
shutdown system down 5.2.1-arch1-1-AR Tue Jul 30 20:17 - 08:23 (12:06)
시스템 로그에는 아무것도 없습니다.
커널 로그 수준을 디버그 수준으로 설정했지만 종료하기 전에 콘솔 출력에 메시지 하나만 나타납니다.
reboot: Power down
"다시 시작: 전원 끄기"가 정확히 무엇을 의미하는지 설명할 수 있는 사람이 있나요? 폐쇄의 원인은 누구 또는 무엇입니까? 이 매우 이상한 문제를 디버깅하는 방법을 아는 사람이 있습니까?
답변1
reboot: Power down
reboot -fp
정상적인 종료 프로세스가 끝나면 명령이 실행되고 있음을 나타낼 수 있습니다 .
출력은 last -x
종료가 적절할 수 있음을 나타냅니다. 당시 아무도 로그인되어 있지 않으면 누군가가 4초 미만 동안 전원 버튼을 누르는 ACPI 전원 버튼 이벤트에 의해 트리거될 수 있습니다.
섀시 로그에는 서버 섀시가 약 일주일 전에 열렸음을 나타냅니다. 직접 수행하지 않은 경우 "변경 사항이 없습니다"라는 가정에 의문을 제기할 수 있습니다.