ntpq 동작이 잘못된 것 같습니다

ntpq 동작이 잘못된 것 같습니다

NTP 및 시간 동기화 작업과 관련된 시스템 오류를 조사하고 있습니다. 이 질문은 재현하기 어렵기 때문에 다른 조건에서 예상한 결과가 나오는지 확인하기 위해 몇 가지 건전성 검사를 수행했습니다.

내 질문은 ntpq에서 사용하는 피어 상태 보고와 특정 조건에서 내가 보고 있는 내용이 합리적인지 여부에 관한 것입니다. 더 자세히 설명하겠지만 ntpq 피어 보고가 어떻게 올바른지 이해하는 데 어려움을 겪고 있습니다.

나는 정상적인 동작에 관심이 있기 때문에 Unix/Linux 사이트에 문의하고 있으며 NTP는 Unix에서 유래했다고 가정합니다. 그러나 완전성을 위해 이 ntpq 및 ntp 데몬은 Windows Server에서 실행됩니다(중요한 경우 Meinberg의 타사 소프트웨어 사용).

작업 가설은 NTP 서버가 어떤 방식으로든 응답하지 않아 잠재적으로 결함이 있는 장애 조치 상황(다른 소스로 전환)이 발생한다는 것입니다. 다음 단계는 유사한 오류가 발생하도록 강제할 수 있는지 확인하기 위한 것입니다.

(아래 지침에서 연결 및 연결 해제는 해당 서버에서 이더넷 케이블을 연결하거나 연결 해제하는 것만으로 간단하게 수행됩니다.)

하나의 NTP 서버가 연결된 상태에서 하나의 NTP 서버 연결이 끊어진 상태에서 로컬 내부 장애 조치 타임베이스 소스를 사용하여 ntpq를 실행하면 다음과 같은 피어 보고서와 함께 다음 결과가 제공됩니다(내 설명 포함:

* 192.168.a.b  *this is the connected time server*
  192.168.c.d  *this is the disconnected time server*
  127.127.1.0

그런 다음 선택한 피어(별표로 표시)의 연결이 끊어지고 몇 분 후에 ntpq가 보고합니다.

  192.168.a.b  *this has been disconnected*
  192.168.c.d  *this is still not yet connected*
* 127.127.1.0  *this is what I would expect*

첫 번째 NTP 서버가 다시 연결되고 ntpq가 원래 상태를 보고합니다.

* 192.168.a.b  *this has been reconnected*
  192.168.c.d  *this is still not connected*
  127.127.1.0

그런 다음 두 번째 NTP 서버에 연결합니다. 몇 분(3-4) 후에 ntpq가 보고합니다.

x 192.168.a.b  *this is still connected*
x 192.168.c.d  *this is now connected for the first time in this test*
  127.127.1.0

우리는 이전에 "x"를 본 적이 없지만,ntp 프로그래밍 매뉴얼, 이는 서버가 "거짓 레이블"임을 의미합니다. "교차 알고리즘에 의해 피어가 잘못된 레이블로 삭제되었습니다."

질문: 원래 선택한 피어가 선택되지 않은 이유는 무엇입니까? 현재 어떤 타이밍 소스가 사용됩니까?

그런 다음 첫 번째 서버의 연결이 끊어졌습니다.

그 시점에서 ntpq는 실행되지 않았고 우리는 ntpd가 죽었다는 것을 알게 되었습니다. 그래서 우리는 ntp 서비스를 다시 시작하고 계속했습니다.

이제 ntpq와 ntpd를 다시 실행하고 ntpq가 보고될 때까지 몇 분 정도 기다립니다.

* 192.168.a.b  *but this is not connected!*
+ 192.168.c.d  *this is still not connected*
  127.127.1.0

연결이 끊긴 NTP 서버가 선택된 피어로 선언되었습니다! 실행 중이고 연결된 두 번째 NTP 서버는 후보로 보고됩니다. "피어는 생존자이며 결합된 알고리즘의 후보입니다."

질문: 연결이 끊긴 NTP 서버가 선택된 피어로 선언되는 이유는 무엇입니까? 현재 어떤 타이밍 소스가 사용됩니까?

이러한 일련의 이벤트는 단지 초기 실패를 강제할 수 있는지 확인하기 위한 것이었지만 실제로는 그렇지 않았습니다. 그러나 원래 문제의 원인이 무엇인지 나타낼 수 있는 예상치 못한 결과가 나타났습니다. 또한 흥미로운 점은 지금까지 시스템이 ntp 관련 문제를 보고하거나 원래 실패의 다른 증상을 표시하지 않고 중단 없이 계속 실행된다는 것입니다.

첫 번째 서버는 상용 GPS 기반 시간 서버입니다. 두 번째 서버는 자체 별도 하드웨어의 가상 머신에서 실행됩니다(현재로서는 다른 세부 정보가 없습니다.)

관련 정보