SUSE Linux HPC 시스템의 긴급 모드 문제

SUSE Linux HPC 시스템의 긴급 모드 문제

고성능 컴퓨팅(HPC)을 위한 헤드 노드와 4개의 작업자 노드가 있습니다.

최근에는 데이터 센터의 유지 관리를 위해 시스템을 종료해야 했습니다. 시스템을 다시 켜려고 했지만 다음과 같은 오류 메시지가 나타납니다.

[ 5.215623][ C14] nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2)
You are in emergency mode. After logging in, type "journalctl -xb" to view system logs, "systemctl reboot" to reboot, "systemctl default" or "exit" to boot into default mode.
Give root password for maintenance (or press Control-D to continue):

루프에 갇힌 것 같습니다.

처음에는 Ctrl+를 선택하여 d제안된 대로 기본 모드로 부팅했지만 안타깝게도 매번 동일한 패닉 모드 오류가 반복되었습니다.

다음과 같은 몇 가지 사항이 관련될 수 있습니다.

  • 잘 모르겠지만, 점검 후 시스템을 켜보니 시스템 뒷면에 외부 USB가 꽂혀 있는 것 같았습니다. 이것이 문제를 일으키는지는 확실하지 않지만 언급할 가치가 있습니다.

  • 각 노드에는 전원 어댑터에 연결된 두 개의 전원 코드가 필요합니다. 다시 연결하는 과정에서 노드의 전원선 중 하나가 원래 전원에 연결되지 않았다는 사실을 깨달았습니다. 그러나 문제가 해결되었으며 이제 필요에 따라 모든 노드에 전원이 공급됩니다.

저는 Linux 전문가가 아니기 때문에 이 문제의 원인이 무엇인지 잘 모르겠습니다. 온라인에서 솔루션을 찾아보았지만 아무 것도 나에게 적합한 것 같습니다.

유사한 문제가 발생했거나 SUSE Linux 및 HPC 시스템에 대한 전문 지식이 있는 경우 이 "패닉 모드" 문제를 해결하는 방법에 대한 조언이나 지침을 주시면 대단히 감사하겠습니다.

관련 정보