Ubuntu 16.04 및 4.4.0-137 일반 커널이 포함된 NVIDIA DevBox가 밤새 무작위로 재부팅되고 종료됩니다.

Ubuntu 16.04 및 4.4.0-137 일반 커널이 포함된 NVIDIA DevBox가 밤새 무작위로 재부팅되고 종료됩니다.

최근 ASUS BIOS와 함께 NVIDIA DevBox를 사용하는 방법과 위에서 언급한 커널 버전과 우분투 버전에 대해 이야기했습니다. 어떤 이유에서든 다른 노트북 및/또는 컴퓨터 기기처럼 기기를 밤새도록 방치할 수는 없습니다. 기기를 기기 위에 놔두면 몇 분 후에 자동으로 잠기거나 절전 모드로 전환됩니다. 다음날, 마우스를 움직이거나 키보드를 누르자마자 컴퓨터가 "일시 중단"되거나 깨어나고 모든 프로그램이 전날 종료했던 것처럼 열리고 실행됩니다.

이상한 이유로 이 기계에서는 이런 일이 발생하지 않습니다. 저보다 먼저 이 기기를 1년 정도 만지지 않았던 이전 사용자가 있어서 에너지 절약에 관한 일종의 구성을 했을 수도 있겠지만, 전원 옵션을 확인해 보니 제 기기에서는 모든 것이 괜찮아 보였습니다(저는 1시간 동안 일시중지하고 1시간 동안 잠갔습니다.) 제가 알아차린 흥미로운 점은 점심 식사 후에 컴퓨터가 잠겨/일시 중지되면 문제 없이 세션으로 돌아오지만 하룻밤 동안 그대로 놔두면 다음 날 다시 가져오고 다음 날 다시 돌아온다는 것입니다. 기계가 자동으로 종료되었습니다. 건물이 잠겨 있어서 밤에 다른 사람이 실제로 전원 끄기 버튼을 눌 수 없었으며, 다른 사용자의 명령 기록도 확인했습니다(우리 둘 다 관리자 권한이 있고 그 사람은 컴퓨터를 사용하지 않음). 원격 액세스가 꺼져 있으면 팝업도 나타나지 않습니다.

전원 공급 장치 불량이나 손상으로 인해 발열 문제가 발생할 수 있다는 내용을 여러 곳에서 읽은 적이 있는데, 이것이 사실인지 어떻게 확인할 수 있습니까? psensor 앱이 있는데 그래픽 카드(4개가 있음)나 마더보드의 온도를 확인할 수 있는 파일에 저장하지 않고 온도만 실시간으로 기록하는 것 같습니다.

자동으로 종료되는 기계를 진단하는 또 다른 방법은 무엇입니까? 발열 문제인지 정전인지 어떻게 알 수 있나요? 아니면 커널 문제일까요? 이 컴퓨터에는 현재 설치 경험이 있는 NVIDIA 드라이버 외에 실제로 집중적인 프로그램(거의 새로운)이 설치되어 있지 않으므로 Ubuntu를 새로 설치하는 것을 고려할 수 있습니까? - 하드웨어에 문제가 있으면 거의 의미가 없지만

그 외 세부 사항:

NVIDIA 드라이버가 올바르게 설치되었습니다. 다음 명령을 강제로 실행하면 드라이버가 버그를 일으키고 기계가 매우 제대로 반응하지 않으며 기계가 2일 동안 연속으로 켜집니다(이러한 기계에게는 매우 쉬울 것입니다). 5분 후에 켜지는 데 어려움을 겪게 됩니다. 한밤중에 행 무작위로 다시 시작:

$ unset autologoff

나중에 드라이버를 제대로 다시 설치해야 하고(그리고 자동 로깅 옵션을 다시 설정해야 함) 시스템이 현재 상태로 돌아가고 24시간 이상 아무 작업도 수행하지 않은 경우(아무 작업도 수행하지 않는 경우) 자체 종료가 "필요"합니다. 사람의 입력을 받지 않지만 백엔드 프로세스가 계속 실행 중일 수 있기 때문입니다.

  • 마더보드: ASUS EATX DDR4 LGA 2011-3 마더보드 X99-E WS/USB 3.1
  • CPU: Intel Xeon E5-2690 v4 2.6GHz 14코어 LGA 2011 프로세서 135W
  • 쿨러: Corsair Hydro 시리즈 H80i v2 익스트림 퍼포먼스 액체 CPU 쿨러, 블랙.
  • 전원 공급 장치: EVGA SuperNOVA 1600 P2 80+ Platinum, 1600W ECO 모드 완전 모듈형 NVIDIA SLI 및 Crossfire 지원 10년 보증 전원 공급 장치 220-P2-1600-X1
  • 그래픽 카드: 4 Titan X Pascal.

pci=noaer컴퓨터에서 이 오류가 발생한다는 사실을 확인한 후 시작에 다음을 추가했습니다.https://askubuntu.com/questions/771899/pcie-bus-error-severity-Corrected

산출:

$ cat /proc/cmdline

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

답변1

시스템을 Ubuntu 18.04에 업로드하여 문제가 해결되었습니다. 이 오류의 원인은 아직 발견되지 않았지만 그래픽 카드, BIOS 및 16.04 Ubuntu 버전과의 커널 불일치와 관련이 있는 것으로 의심됩니다.

관련 정보