다중 GPU 슈퍼컴퓨터

다중 GPU 슈퍼컴퓨터

우분투 서버 14.04를 실행하는 슈퍼마이크로 서버가 있고 Quadro 400(디스플레이용), Nvidia GTX 295 및 Nvidia K80을 설치하고 싶지만 K80용 드라이버를 설치할 때 Quadro 400 및 Nvidia GTX 295는 nvidia- 스미인

nvidia 웹사이트에서 GTX 295(Quadro 400과 동일한 것으로 보임)용 드라이버를 설치하려고 하면 이전에 설치한 드라이버를 제거해야 한다는 메시지가 나타납니다(드라이버가 K80용이고 K80용이 아닌데도 불구하고). GTX295)

이전에 이 문제를 겪은 사람이 있나요? 그리고 여러 GPU를 설치하고 감지하는 방법을 알아보세요.

또한 (이전 검색을 기반으로) 다음 내용으로 /etc/modprobe.d/에 blacklist-nouveau.conf라는 파일을 만들었습니다.

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off

nvidia-smi를 실행할 때(그리고 모든 드라이버를 설치하려고 시도한 후) 다음 메시지가 나타납니다.

Failed to initialize NVML: Unknown Error

감사해요

답변1

이것이 해결책이다

  1. Ubuntu 서버 14.04를 다시 설치했습니다.
  2. 공식 문서의 1-2, 3번 항목을 따랐습니다.
cuda-getting-started-guide-for-linux
  1. nvidia-smi를 실행했는데 K80만 표시되었습니다.
  2. K80의 플러그를 뽑았습니다.
  3. gtx295 및 Quadro 400용 드라이버를 수동으로 설치했습니다.
 sudo apt-get install nvidia-340
  1. K80을 다시 연결했어요
  2. 시스템을 다시 시작하고 Nvidia-smi를 실행했습니다(모든 그래픽 카드가 표시되지만 CUDA 코드나 Nsight를 통해 액세스할 수 있는 것은 없는 것 같습니다).

  3. 그래서 다시 실행했습니다(GTX 및 Quadro 드라이버는 제거되지 않기를 바랍니다).

sudo apt-get install cuda-drivers
  1. 서버를 다시 시작하세요

(현재 Nvidia-smi) K80만 보여줬는데.... 또!

  1. 드디어 설치했어요
 sudo apt-get install nvidia-cuda-toolkit
  1. 서버를 다시 시작했어요
  2. 예, 작동했습니다. 모두 감지되었으며 모든 GPU를 사용할 수 있었습니다.

이제 모든 카드가 Nvidia-smi에 나타납니다. 비록 그래픽 인터페이스도 얻는 것 같지만 설치하지 않았기 때문에 이상하지만 공평합니다. 이제 작동하는지 확인해 보겠습니다.

관련 정보