cuda

Fedora 39에서 dnf update --refresh를 사용하여 nvidia 드라이버를 업데이트하려고 하면 오류가 많이 발생합니다.

약 1~2주 전에 커널 업데이트를 시도했는데 실수로 NVIDIA 드라이버가 손상되었습니다. 부팅할 때마다 "NVIDIA 커널 모듈이 손상되었습니다. nouveau로 되돌리는 중" 메시지나 이와 유사한 메시지가 나타납니다. 찾아보니 여러 소스에서 sudo dnf update --refresh를 지시했지만 그렇게 하면 다음과 같은 결과가 나왔습니다. Problem 1: package xorg-x11-drv-nvidia-power-3:550.67-1.fc39.x86_64 from rpmfusion-non...

Admin 2024-11-30

cuda

GPU RTX 3090을 일정 기간 사용한 후에도 계속 ERR이 발생합니다.

내 컴퓨터의 GPU 관련 문제를 해결하려고 노력해 왔습니다. 현재 GPU는 일부 훈련 작업을 매우 잘 수행할 수 있습니다. 하지만 입력하면 ERR 로 이동합니다 nvidia-smi. 그렇다면 무슨 일이 일어나더라도 sudo -kill 9 PID. GPU를 다시 시작하려고 하면 다른 프로세스에서 GPU를 사용하고 있기 때문에 다시 시작할 수 없다는 메시지가 표시됩니다. 이를 종료할 수는 없을 것 같습니다. 이런 문제가 계속 발생하고 재부팅하면 문제가 해결된 것 같지만 몇 가지 훈련 후에 문제가 다시 발...

Admin 2024-11-2

cuda

Wi-Fi가 더 이상 작동하지 않습니다(아마도 CUDA 드라이버 및/또는 nvidia-smi 설치로 인해)

Debian 시스템에 nvidia CUDA 드라이버를 설치했는데 nvidia-smi지금까지 Wi-Fi 문제가 없습니다. 나는 많은 sudo apt install명령을 시도하고 일부 *.deb파일을 다운로드했습니다.마침내CUDA 드라이버와 실행 파일이 제대로 작동하도록 하세요. 하지만 컴퓨터를 다시 시작한 후에는 Wi-Fi를 사용할 수 없습니다. 이것은 설치 시도의 결과라고 가정해야 합니다. 현재 제공할 수 있는 유일한 힌트는 커널 로그에서 다음 항목을 찾았다는 것입니다. sudo dmesg | gre...

Admin 2024-10-28

cuda

Cuda(arch linux)용 EGPU가 포함된 다중 NVIDIA RTX GPU

나는아치리눅스, 노트북에는 2개의 GPU가 있습니다(Thinkpad P14s 4세대) + Cool Master EG200 GPU 케이스를 사용하여 Thunderbolt 4를 통해 연결된 새로운 RTX 3090: ❯ lspci -k | grep -A 2 -E "(VGA|3D)" 00:02.0 VGA compatible controller: Intel Corporation Raptor Lake-P [Iris Xe Graphics] (rev 04) Subsystem: Lenovo Raptor...

Admin 2024-9-19

cuda

스크립트가 실행되지 않지만 GPU 메모리는 여전히 할당됩니다.

내 로컬 컴퓨터에서 원격 Linux 서버에 액세스하고 있습니다. 원격 서버에서는 스크립트가 실행되고 있지 않지만 GPU 메모리는 여전히 할당되어 있습니다. 추신: 일부 충돌로 인해 발생할 수 있습니다. 공연 nvidia-smi: +-----------------------------------------------------------------------------+ | NVIDIA-SMI 510.47.03 Driver Version: 510.47.03 CUDA Version: 11.6 ...

Admin 2024-7-17

cuda

CUDA를 사용하는 프로세스가 중단되고 다른 모든 프로세스도 중단됩니다. 어떻게 해야 합니까?

저는 Linux 시스템(Devuan Daedalus, 커널 버전 6.1.27)에서 실행하기 위해 CUDA CUDA 12.1을 사용하여 일부 프로그램을 작성하고 있습니다. 어떤 이유에서인지(약간 의심스럽기는 하지만 이것은 내 실수일 수 있습니다.) 프로세스가 어느 시점에서 중단되었습니다. SIGINT, SIGTERM 또는 SIGKILL을 보내도 효과가 없습니다. 이 프로세스의 세부 사항은 중요하지 않지만 - 파일 I/O를 수행하지 않고 네트워크를 사용하지 않으며 다른 주변 장치를 사용하지 않습니다. -...

Admin 2024-6-11

cuda

명령줄을 통해 CUDA를 12.0에서 11.8로 다운그레이드하는 방법은 무엇입니까?

저는 NVIDIA A100 40GB GPU 및 CUDA 12.0과 함께 Ubuntu 20.04.5 LTS를 사용하고 있습니다. 명령줄을 통해 CUDA를 12.0에서 11.8로 다운그레이드하는 방법은 무엇입니까? ...

Admin 2024-6-11

cuda

Linux에서 cuda용 torch를 어떻게 설치하나요?

cuda용 pytorch를 설치하고 싶지만 패키지 충돌이 발생합니다. 이 문제를 어떻게 해결하나요? $ uname -r 3.10.0-1160.71.1.el7.x86_64 $ python -c "import torch; print(torch.version.cuda)" None $ nvidia-smi Tue May 9 10:56:44 2023 +-----------------------------------------------------------------------------+ |...

Admin 2024-6-11

cuda

CUDA를 사용하는 프로그램은 오류 중 하나가 발생하면 정지되어 종료할 수 없습니다.

뭔가 디버깅을 하려고 하는데프로그램내 것은 CUDA(특히 CUDA 그래프)를 사용합니다. 프로그램은 (가끔) 오류를 발생시킨 후 비교적 정상적으로 종료됩니다. 그러나 실패한 후 GPU를 사용하여 다른 프로그램을 실행하려고 하면 시작 시 즉시 멈추고 kill -KILL루트에서도 종료할 수 없습니다. 내 dmesg 출력(Linux 시스템)을 보면 다음 줄이 표시됩니다. [ 155.786155] nvidia_uvm: module uses symbols nvUvmInterfaceDisableAccessCn...

Admin 2024-6-11

cuda

추출된 로컬 실행 파일에서 CUDA를 설치하는 방법은 무엇입니까?

최신 CUDA 버전(예: 12.0)의 실행 파일을 다운로드하여 실행 가능하게 만들고 다음을 사용하여 실행했습니다. ./cuda_12.0.1_525.85.12_linux.run --extract=/tmp/cuda-install 더 이상 원본 설치 프로그램이 없고 추출된 파일만 있다고 가정해 보겠습니다. 추출된 대상 칩에 설치 프로그램이 실제로 표시되지 않습니다. 어떻게 해야 합니까? 이전 버전에서는 압축을 푼 후에 설치할 수 있었던 것으로 기억합니다. ...

Admin 2024-6-10

cuda

Nvidia GPU 드라이버는 RPM에서 컴파일할 수 없습니다.

최근 OpenSuSE 15.3에서 15.4로 업데이트했는데, 여기에는 새 드라이버(버전 490+)를 사용할 수 있는 GPU 업데이트가 포함되어 있습니다. 이번 업그레이드 이후에는 RPM 기본 설치로 인해 커널 모듈이 업데이트되지 않습니다. GUI를 다시 작동시키기 위해 설치 프로그램을 사용했지만 .run이로 인해 드라이버를 수동으로 업데이트해야 했고 RPM 기반 CUDA 설치 관리에 큰 피해를 입혔습니다. 그래서 다시 작동하게 하는 방법을 알고 싶습니다. 첫 번째 단계는 직접 전달을 시도하는 것이었습...

Admin 2024-6-10

cuda

X86 Linux PC의 GPUDirect RDMA, 드라이버 빌드 문제

아래 링크에 언급된 대로 GPUDirect RDMA를 수행하려고 합니다. 저는 Quadro M4000 GPU 및 CUDA 12.0 도구 모음이 포함된 X86 Linux PC를 사용하고 있습니다. 드라이버를 빌드하고 CUDA 프로그래밍을 수행하는 동안 다음 오류가 발생합니다. GPUDirect_RDMA 커널 모듈을 빌드하기 위해 명령을 실행할 때 ./build-for-pc-native.sh다음 오류가 발생합니다. Building modules, stage 2. ** MODPOST 1 modules** ...

Admin 2024-6-10

cuda

NVIDIA GPU에 대한 사용자 액세스를 제한하시겠습니까?

Tesla Nvidia 카드가 장착된 서버에서는 GPU에 대한 사용자 액세스를 제한하기로 결정했습니다. 우리 서버에는 2개의 GPU가 있습니다. # ls -las /dev/nvidia* 0 crw-rw-rw-. 1 root root 195, 0 Dec 2 22:02 /dev/nvidia0 0 crw-rw-rw-. 1 root root 195, 1 Dec 2 22:02 /dev/nvidia1 이 해결책을 찾았습니다GPU에 대한 사용자 제한 정의 로컬 그룹 gpu_cuda를 만듭니다. sud...

Admin 2024-6-10

cuda

업그레이드 후 부팅이 멈춤

내 GPU는엔비디아 - 지포스 RTX 3090 Ti, 운영 체제는우분투18.04. 내 코드가 실행되지 않았기 때문에 Python, pytorch, cuda 및 cudnn의 버전을 확인했습니다. 파이썬: 3.6 토치. 버전: 1.4.0 torch.version.cuda: 10.1 (nvidia-smi는 CUDA 버전 11.3을 보여줍니다) 쿠데른: 7.6.3 3090 Ti와 호환되지 않습니다. 성공적으로 업그레이드했습니다.파이썬을 3.9로, 그리고Pytorch를 1.12.1+cu102로. 그러나 "...

Admin 2024-6-10

cuda

nvidia-cuda-toolkit과 일치하는 버전을 설치하는 방법은 무엇입니까?

내 시스템(Ubuntu 22)에 NVIDIA 드라이버를 다음과 같이 설치했습니다. 설치 프로그램 스크립트를 다운로드합니다.https://us.download.nvidia.com/XFree86/Linux-x86_64/515.65.01/NVIDIA-Linux-x86_64-515.65.01.run 비그래픽 모드에서 시스템을 다시 시작합니다. sudo systemctl set-default multi-user.target reboot 0 설치 스크립트를 실행합니다. 그래픽 모드에서 다시 시작: sudo...

Admin 2024-6-10