NVIDIA 드라이버가 설치되었지만 nvidia-smi가 CentOS에서 실행되지 않습니다.

NVIDIA 드라이버가 설치되었지만 nvidia-smi가 CentOS에서 실행되지 않습니다.

NVIDIA 드라이버를 설치하고 다음 출력으로 확인했습니다 cat /proc/driver/nvidia/version.

NVRM 버전: NVIDIA UNIX x86_64 커널 모듈 390.30 Wed Jan 31 22:08:49 PST 2018 GCC 버전: gcc 버전 4.8.5 20150623(Red Hat 4.8.5-16)(GCC)

그런데 nvidia-smi실행시 다음과 같은 오류가 발생했습니다.bash: nvidia-smi: command not found...

추가 정보: 저는 CentOS 7을 실행 중이고 a) nvidia-smi를 작동시키고 b) CUDA를 설치하려고 합니다.

답변1

3년 1개월 전에 질문함

당신은 말한다 NVIDIA 드라이버를 설치했습니다하지만 어떻게 설치했는지는 설명하지 않았습니다. NVIDIA 드라이버는 커널 모듈이며 일반적으로잃어버린커널 업데이트가 발생 하면 yum updatenvidia 커널 모듈이 유지되지 않으므로(DKMS가 설치되지 않은 경우) nvidia 기능이 중단됩니다.

그러나 이는 /usr/bin/nvidia-smi명령을 찾을 수 없다고 말하는 이유를 설명하지 않습니다. 그것은 또 다른 이야기이지만 그것이 nvidia-smiPATH에 있어야 하고 /usr/bin분명히 PATH에 있어야 합니다. NVIDIA를 통해 다시 설치하십시오.엔비디아 실행문서를 통해 문제가 해결될 것입니다...

아래는내가 선호하는 방법RHEL/CentOS 7.x에서 NVIDIA(및 cuda)를 설치하는 것이 저에게 효과적이었습니다(약 지난 3년 동안).

  • nvidia에서 다운로드하세요 NVIDIA-Linux-x86_64-460.67.run. {그래픽 카드에 맞는 버전을 받으세요} 약 150mb
  • nvidia에서 다운로드하세요 cuda_11.2.2_460.32.03_linux.run(최신 버전이 2GB를 초과하는 경우)
  • suchmod 700루트; 양쪽 모두 /root에 복사합니다 .
  • systemctl set-default multi-user.target
  • reboot또는 systemctl isolate multi-user.target또는init 3
  • /root/NVIDIA-Linux-x86_64-460.67.run을 실행하고 {관찰하세요.커널 모듈 빌드부분}
  • 성공적으로 설치되면 /usr/bin/nvidia-smi해당 프로그램이 존재하고 작동해야 합니다.
  • 그런 다음 실행 systemctl isolate graphical.target 하거나 init 5그래픽 콘솔이 작동하면 로그인하고 systemctl set-default graphical.target원하는 경우 다시 설정하십시오.
  • 모든 것이 제대로 작동하는지 확인하려면 최종 재부팅을 수행하는 것이 좋습니다.

CUDA 설치는 기본적으로 동일한 과정입니다.

cuda.run 파일에 번들로 포함된 nvidia 그래픽 드라이버가 항상 최신 상태인 것은 아닙니다.

최신 nvidia.run 드라이버는 항상 모든 cuda 버전에서 작동합니다.

cuda.run 파일에 번들로 제공되는 nvidia 그래픽 드라이버를 설치할 필요가 없으므로 cuda를 설치할 때 드라이버를 선택 취소하는 것이 좋습니다.

답변2

저는 직장에서 HPC 클러스터를 실행하고 있으며 cuda 드라이버 RPM을 설치했습니다. nvidia-smi를 제공하지만 $INSTALL_ROOT/libs/440.64.00/bin 디렉터리에 있습니다. $INSTALL_ROOT는 시스템마다 다를 수 있으므로 먼저 찾아야 합니다.

이름에 nvidia가 포함된 RPM이 아닌 cuda-driver라는 RPM을 사용하고 있다는 것을 기억했을 때 다음과 같은 nvidia-smi 도구를 찾았습니다.

rpm-qa | grep -i cuda | grep -i cuda xargs rpm -ql | xargs rpm -ql grep

그러면 세 가지 경로 이름이 제공됩니다(여기서 INSTALL_ROOT를 볼 수 있습니다).

/cm/local/apps/cuda-driver/libs/440.64.00/bin/nvidia-smi /cm/local/apps/cuda-driver/libs/440.64.00/share/doc/NVIDIA_GLX-1.0/html/nvidia -smi.html /cm/local/apps/cuda-driver/libs/440.64.00/share/man/man1/nvidia-smi.1.gz

그런 다음 그 중 하나에 rpm -qf를 사용하여 RPM 이름을 얻었습니다.

도움이 되었기를 바랍니다!

답변3

일반적으로 새 시스템에서 작업할 때 - sudo 액세스 권한이 있는 경우:

첫 시도

sudo apt-get install nvidia-cuda-toolkit 또는

sudo yum nvidia-cuda-toolkit 설치

사용 중인 시스템에 따라 다릅니다.

그래도 문제가 해결되지 않으면 다른 해결 방법을 시도해 보세요.

sudo 액세스 권한이 없는 시스템의 경우 공식 웹사이트에서 드라이버를 다운로드하고 nvidia-driver를 먼저 설치한 다음 cuda를 설치하여 동일한 드라이버 버전을 얻습니다.

nvidia-sminvidia-utils해당 드라이버 버전을 설치하는 데 필요한 패키지의 일부입니다.

예: nvidia-driver 440의 경우 설치해야 합니다.sudo apt install nvidia-utils-440

빠른 메모에서는 apt-get 대신 적성을 사용합니다.

sudo apt install aptitude -y

sudo aptitude install -y nvidia-driver-535 nvidia-dmks-535

관련 정보