고성능 컴퓨팅(HPC)을 위한 헤드 노드와 4개의 작업자 노드가 있습니다.
최근에는 데이터 센터의 유지 관리를 위해 시스템을 종료해야 했습니다. 시스템을 다시 켜려고 했지만 다음과 같은 오류 메시지가 나타납니다.
[ 5.215623][ C14] nvme0: Identify(0x6), Invalid Field in Command (sct 0x0 / sc 0x2)
You are in emergency mode. After logging in, type "journalctl -xb" to view system logs, "systemctl reboot" to reboot, "systemctl default" or "exit" to boot into default mode.
Give root password for maintenance (or press Control-D to continue):
루프에 갇힌 것 같습니다.
처음에는 Ctrl+를 선택하여 d제안된 대로 기본 모드로 부팅했지만 안타깝게도 매번 동일한 패닉 모드 오류가 반복되었습니다.
다음과 같은 몇 가지 사항이 관련될 수 있습니다.
잘 모르겠지만, 점검 후 시스템을 켜보니 시스템 뒷면에 외부 USB가 꽂혀 있는 것 같았습니다. 이것이 문제를 일으키는지는 확실하지 않지만 언급할 가치가 있습니다.
각 노드에는 전원 어댑터에 연결된 두 개의 전원 코드가 필요합니다. 다시 연결하는 과정에서 노드의 전원선 중 하나가 원래 전원에 연결되지 않았다는 사실을 깨달았습니다. 그러나 문제가 해결되었으며 이제 필요에 따라 모든 노드에 전원이 공급됩니다.
저는 Linux 전문가가 아니기 때문에 이 문제의 원인이 무엇인지 잘 모르겠습니다. 온라인에서 솔루션을 찾아보았지만 아무 것도 나에게 적합한 것 같습니다.
유사한 문제가 발생했거나 SUSE Linux 및 HPC 시스템에 대한 전문 지식이 있는 경우 이 "패닉 모드" 문제를 해결하는 방법에 대한 조언이나 지침을 주시면 대단히 감사하겠습니다.