WSL2 Ubuntu 구현에서 SLURM GRES용 Nvida 장치를 찾고 있습니다.

WSL2 Ubuntu 구현에서 SLURM GRES용 Nvida 장치를 찾고 있습니다.

뭔가 이상한 걸 시도하고 있어요. 4개의 컴퓨팅 노드로 slurm 클러스터를 구성했습니다. 그 중 2대는 WSL2를 실행하는 Windows 11 컴퓨터이며 작동하고 있습니다.

이제 SLURM 클러스터에 GPU 지원을 추가하려고 합니다. 기본 ubuntu 22.04 시스템에 있는 2개의 컴퓨팅 노드의 경우 nvidia 장치는 /dev/nvidia[0-3]으로 표시되지만 WSL2(Ubuntu 22.04)에서는 /dev/에 GPU와 통신할 항목이 없습니다.

두 컴퓨터의 하드웨어는 다르지만 둘 다 Windows 11을 실행하고 있으며 여기에 지정된 대로 Nvidia 드라이버 537.13, WSL2 Ubuntu 22.04 및 cuda 드라이버가 설치되어 있습니다.엔비디아 웹사이트

두 시스템 모두에서 nvidia-smi 출력:

Thu Sep  7 23:28:30 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.103                Driver Version: 537.13       CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 3090        On  | 00000000:01:00.0 Off |                  N/A |
|  0%   24C    P8              11W / 420W |     53MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce RTX 3090        On  | 00000000:2E:00.0 Off |                  N/A |
|  0%   24C    P8              14W / 420W |      0MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA GeForce RTX 3090        On  | 00000000:41:00.0  On |                  N/A |
|  0%   25C    P5              43W / 420W |   2753MiB / 24576MiB |      2%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA GeForce RTX 3090        On  | 00000000:61:00.0 Off |                  N/A |
|  0%   25C    P8              12W / 420W |      0MiB / 24576MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    0   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    0   N/A  N/A        23      G   /Xwayland                                 N/A      |
|    1   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    1   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    1   N/A  N/A        23      G   /Xwayland                                 N/A      |
|    2   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    2   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    2   N/A  N/A        23      G   /Xwayland                                 N/A      |
|    3   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    3   N/A  N/A        22      G   /Xwayland                                 N/A      |
|    3   N/A  N/A        23      G   /Xwayland                                 N/A      |
+---------------------------------------------------------------------------------------+
Thu Sep  7 23:47:19 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.103                Driver Version: 537.13       CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA GeForce RTX 2080 Ti     On  | 00000000:01:00.0 Off |                  N/A |
|  0%   25C    P8              29W / 260W |    433MiB / 11264MiB |      1%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A        23      G   /Xwayland                                 N/A      |
+---------------------------------------------------------------------------------------+

두 대의 기계 ls /dev/:

autofs           fuse          loop0   ptmx        ram5    stderr  tty19  tty32  tty46  tty6     vcs2   vcsu3
block            hugepages     loop1   ptp0        ram6    stdin   tty2   tty33  tty47  tty60    vcs3   vcsu4
bsg              hvc0          loop2   ptp_hyperv  ram7    stdout  tty20  tty34  tty48  tty61    vcs4   vcsu5
btrfs-control    hvc1          loop3   pts         ram8    tty     tty21  tty35  tty49  tty62    vcs5   vcsu6
bus              hvc2          loop4   ram0        ram9    tty0    tty22  tty36  tty5   tty63    vcs6   vfio
char             hvc3          loop5   ram1        random  tty1    tty23  tty37  tty50  tty7     vcsa   vhost-net
console          hvc4          loop6   ram10       rtc     tty10   tty24  tty38  tty51  tty8     vcsa1  virtio-ports
core             hvc5          loop7   ram11       rtc0    tty11   tty25  tty39  tty52  tty9     vcsa2  vport0p0
cpu_dma_latency  hvc6          mapper  ram12       sda     tty12   tty26  tty4   tty53  ttyS0    vcsa3  vport0p1
cuse             hvc7          mem     ram13       sdb     tty13   tty27  tty40  tty54  ttyS1    vcsa4  vsock
disk             initctl       mqueue  ram14       sdc     tty14   tty28  tty41  tty55  ttyS2    vcsa5  zero
dri              kmsg          net     ram15       sg0     tty15   tty29  tty42  tty56  ttyS3    vcsa6
dxg              kvm           null    ram2        sg1     tty16   tty3   tty43  tty57  urandom  vcsu
fd               log           nvram   ram3        sg2     tty17   tty30  tty44  tty58  vcs      vcsu1
full             loop-control  ppp     ram4        shm     tty18   tty31  tty45  tty59  vcs1     vcsu2

위에서 언급한 대로 Windows와 wsl2 모두에서 cuda를 다시 설치해 보고 문제를 검색해 보았습니다.

내 질문은 "기존 우분투 설치에서 /dev/nvidia0과 같은 nvidia 장치를 어디에 매핑할 수 있습니까? SLURM의 gres.conf에서"입니다.

답변1

분명히 DGX는 wsl Linux 서비스의 그래픽 카드 이름입니다.

  photoprism:
    environment:
      ...
    devices:
      - "/dev/dxg:/dev/nvidia0"
    ...
container: host etc

관련 정보