저는 Rocks Cluster를 기반으로 하는 소규모 클러스터(4개 노드)를 "관리"하고 있습니다. 최근 재부팅 후 슬레이브 노드는 모두 자발적으로 운영 체제를 다시 설치하고 전체 구성, 인피니밴드 지원, 설치된 소프트웨어 등을 지우기로 결정한 것 같습니다.
시스템이 왜 이런 일을 하는지 이해할 수 없고 전혀 도움이 되지 않습니다. 이전에 이런 일이 일어난 사람이 있나요? 그 원인은 무엇입니까?
농담으로 말하자면, 노드를 원래 사양에 맞게 재구축하는 것을 포기했을 수도 있으므로 슬레이브가 제대로 작동하면 어떻게 백업합니까?
추가 정보:
또한 시도된 핑에 따르면 헤드 노드는 기본적으로 인터넷에 액세스할 수 없는 것으로 보입니다. 또한 로컬 DNS 주소(192.168.0.1)에 대해 ping을 수행할 수 없는 것 같습니다.
답변1
적어도 어떤 경우에는 Rocks가 부팅할 때마다 기본적으로 슬레이브 노드에 다시 설치되는 것으로 나타났습니다.(1). 아마도 의도는 클러스터가 항상 켜져 있고 재부팅하면 재설치를 통해 이점을 얻을 수 있는 일부 변경이 수행되었음을 의미할 수 있습니다. 가끔 사용되는 시스템의 경우 전체 재설치를 완료하기 위해 모든 설치 후 스크립트를 구성할 수 없기 때문에 이는 적절하지 않습니다. 재설치를 피하는 방법은 다음과 같습니다.
rocks run host compute "chkconfig rocks-grub off"
이렇게 하면 Compute 그룹의 모든 슬레이브 노드에서 기능이 실행되어 재설치 기능이 비활성화됩니다.
제 경우에는 자동 재설치를 피하기 위해 슬레이브 노드가 로컬 드라이브에서 먼저 부팅되도록 설정되어 있습니다. 강제 정전으로 인해 로컬 디스크가 손상되어 다음 부팅 시 손상된 로컬 디스크가 부팅할 수 없게 되고 재설치 지침을 받아 헤드 노드에서 PXE 부팅으로 넘겨지게 되었기 때문에 이 문제가 발생했다고 생각합니다. 강제 전원 끄기는 shutdown now
슬레이브 장치의 작업을 알 수 없는 중단으로 인해 발생합니다. 물리적으로 전원을 제거하면 시스템이 종료될 수 있습니다. 지금 사용하고 shutdown -h now
있는데 바닐라 종료를 방해하는 모든 문제를 극복한 것 같습니다.