Nvidia Tesla PH402 듀얼 P100 카드가 lspci에는 표시되지만 nvidia-smi에는 표시되지 않습니다.

Nvidia Tesla PH402 듀얼 P100 카드가 lspci에는 표시되지만 nvidia-smi에는 표시되지 않습니다.

Dual P100 64G 카드를 설치했지만 nvidia-smi 또는 deviceQuery에서 이를 인식할 수 없습니다.

기본 우분투 드라이버와 수동으로 설치된 nvidia 웹 사이트 드라이버(기본 드라이버를 정리한 후)를 사용해 보았지만 성공하지 못했습니다. 나는 팔로우한다이 앱CUDA 툴킷을 설치하고 유틸리티(deviceQuery 포함)를 컴파일하지만 항상 No devices were found.

다음은 일부 출력입니다.

$ lspci -nn | grep 3D
03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)

$ nvidia-smi 
No devices were found

$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04) 

$ ./deviceQuery Starting...

 CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 100
-> no CUDA-capable device is detected
Result = FAIL

드라이버와 카드 사이의 링크를 찾을 수 있는 유일한 곳은 /sys/bus/pci/drivers/nvidiaTesla 칩 PCI ID 0000:03:00.00000:04:00.0

예상대로 작동하게 하려면 어떻게 해야 합니까?

답변1

문제는 하드웨어 문제였습니다. 내 오래된 마더보드는 이 카드가 가지고 있는 64G와 같은 충분한 메모리 주소 지정을 지원하지 않았습니다. Bios에서 "4G 이상 디코딩"을 활성화하고 CSM 지원을 비활성화해야 하며, 내 기존 마더보드는 4G 이상의 디코딩을 지원하지 않습니다.

ASUS TUF x570 Plus에서는 올바른 Bios 설정을 사용하면 작동합니다! 이 카드를 사용할 수 있으며 nvidia-smi 등에서 볼 수 있습니다.

Nvidia 포럼에서 자세한 내용을 확인하세요.

https://forums.developer.nvidia.com/t/ph402-dual-p100-64g-rminitadapter-failed-memory-mapping-issue/173877

관련 정보