뭔가 이상한 걸 시도하고 있어요. 4개의 컴퓨팅 노드로 slurm 클러스터를 구성했습니다. 그 중 2대는 WSL2를 실행하는 Windows 11 컴퓨터이며 작동하고 있습니다.
이제 SLURM 클러스터에 GPU 지원을 추가하려고 합니다. 기본 ubuntu 22.04 시스템에 있는 2개의 컴퓨팅 노드의 경우 nvidia 장치는 /dev/nvidia[0-3]으로 표시되지만 WSL2(Ubuntu 22.04)에서는 /dev/에 GPU와 통신할 항목이 없습니다.
두 컴퓨터의 하드웨어는 다르지만 둘 다 Windows 11을 실행하고 있으며 여기에 지정된 대로 Nvidia 드라이버 537.13, WSL2 Ubuntu 22.04 및 cuda 드라이버가 설치되어 있습니다.엔비디아 웹사이트
두 시스템 모두에서 nvidia-smi 출력:
Thu Sep 7 23:28:30 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.103 Driver Version: 537.13 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3090 On | 00000000:01:00.0 Off | N/A |
| 0% 24C P8 11W / 420W | 53MiB / 24576MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 1 NVIDIA GeForce RTX 3090 On | 00000000:2E:00.0 Off | N/A |
| 0% 24C P8 14W / 420W | 0MiB / 24576MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 2 NVIDIA GeForce RTX 3090 On | 00000000:41:00.0 On | N/A |
| 0% 25C P5 43W / 420W | 2753MiB / 24576MiB | 2% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 3 NVIDIA GeForce RTX 3090 On | 00000000:61:00.0 Off | N/A |
| 0% 25C P8 12W / 420W | 0MiB / 24576MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 22 G /Xwayland N/A |
| 0 N/A N/A 22 G /Xwayland N/A |
| 0 N/A N/A 23 G /Xwayland N/A |
| 1 N/A N/A 22 G /Xwayland N/A |
| 1 N/A N/A 22 G /Xwayland N/A |
| 1 N/A N/A 23 G /Xwayland N/A |
| 2 N/A N/A 22 G /Xwayland N/A |
| 2 N/A N/A 22 G /Xwayland N/A |
| 2 N/A N/A 23 G /Xwayland N/A |
| 3 N/A N/A 22 G /Xwayland N/A |
| 3 N/A N/A 22 G /Xwayland N/A |
| 3 N/A N/A 23 G /Xwayland N/A |
+---------------------------------------------------------------------------------------+
Thu Sep 7 23:47:19 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.103 Driver Version: 537.13 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 2080 Ti On | 00000000:01:00.0 Off | N/A |
| 0% 25C P8 29W / 260W | 433MiB / 11264MiB | 1% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 23 G /Xwayland N/A |
+---------------------------------------------------------------------------------------+
두 대의 기계 ls /dev/
:
autofs fuse loop0 ptmx ram5 stderr tty19 tty32 tty46 tty6 vcs2 vcsu3
block hugepages loop1 ptp0 ram6 stdin tty2 tty33 tty47 tty60 vcs3 vcsu4
bsg hvc0 loop2 ptp_hyperv ram7 stdout tty20 tty34 tty48 tty61 vcs4 vcsu5
btrfs-control hvc1 loop3 pts ram8 tty tty21 tty35 tty49 tty62 vcs5 vcsu6
bus hvc2 loop4 ram0 ram9 tty0 tty22 tty36 tty5 tty63 vcs6 vfio
char hvc3 loop5 ram1 random tty1 tty23 tty37 tty50 tty7 vcsa vhost-net
console hvc4 loop6 ram10 rtc tty10 tty24 tty38 tty51 tty8 vcsa1 virtio-ports
core hvc5 loop7 ram11 rtc0 tty11 tty25 tty39 tty52 tty9 vcsa2 vport0p0
cpu_dma_latency hvc6 mapper ram12 sda tty12 tty26 tty4 tty53 ttyS0 vcsa3 vport0p1
cuse hvc7 mem ram13 sdb tty13 tty27 tty40 tty54 ttyS1 vcsa4 vsock
disk initctl mqueue ram14 sdc tty14 tty28 tty41 tty55 ttyS2 vcsa5 zero
dri kmsg net ram15 sg0 tty15 tty29 tty42 tty56 ttyS3 vcsa6
dxg kvm null ram2 sg1 tty16 tty3 tty43 tty57 urandom vcsu
fd log nvram ram3 sg2 tty17 tty30 tty44 tty58 vcs vcsu1
full loop-control ppp ram4 shm tty18 tty31 tty45 tty59 vcs1 vcsu2
위에서 언급한 대로 Windows와 wsl2 모두에서 cuda를 다시 설치해 보고 문제를 검색해 보았습니다.
내 질문은 "기존 우분투 설치에서 /dev/nvidia0과 같은 nvidia 장치를 어디에 매핑할 수 있습니까? SLURM의 gres.conf에서"입니다.
답변1
분명히 DGX는 wsl Linux 서비스의 그래픽 카드 이름입니다.
photoprism:
environment:
...
devices:
- "/dev/dxg:/dev/nvidia0"
...
container: host etc