cluster

특정 리소스를 소비하는 도구를 종료하는 스크립트/데몬?
cluster

특정 리소스를 소비하는 도구를 종료하는 스크립트/데몬?

저는 SGE Linux 클러스터에서 작업하고 있는데 초보자는 종종 qsub또는 qlogin(https://gridscheduler.sourceforge.net/htmlman/htmlman1/qsub.html). 다음과 같은 특정 프로그램을 종료할 수 있는 도구나 방법이 있습니까?바블라) 로그인 노드에서 실행하는 데 5분 이상 걸리면 어떻게 됩니까? ...

Admin

PC에 Slurm을 설치할 수 없습니다
cluster

PC에 Slurm을 설치할 수 없습니다

우분투 PC에 slurm을 설치하려고 합니다. 그래서 위에 주어진 지침을 따랐습니다.여기 나는 다음을 수행했습니다 - sudo apt update -y sudo apt install slurmd slurmctld -y mkdir sudo /etc/slurm-llnl 참고로...3단계는 제가 직접 알아냈어요 sudo chmod 777 /etc/slurm-llnl sudo cat << EOF > /etc/slurm-llnl/slurm.conf ClusterName=localcluste...

Admin

slurm 클러스터에 대한 qsub와 유사한 동작
cluster

slurm 클러스터에 대한 qsub와 유사한 동작

나는 최근에 slurm으로 전환하여 qsub처럼 작동하는 작업 제출 도구를 찾고 있습니다. 파이프를 통해 입력을 받습니다. 출력을 표준 출력으로 인쇄합니다. 예: for n in `seq 1 10`; do echo "echo $n" | qsub done 각 echo 명령은 클러스터로 전송되어야 하며 출력은 1..10(아마도 무작위 순서)이어야 합니다. 지금까지는 할 수 있어요 sbatch를 사용하여 작업을 병렬로 보내지만 출력이 stdout으로 출력되는지 확실하지 않음 srun을 사용...

Admin

누락된 모듈을 찾는 쉘 스크립트
cluster

누락된 모듈을 찾는 쉘 스크립트

컴퓨팅 클러스터에서 셸 스크립트를 실행하려고 하는데 어느 시점에서 몇 달 전 클러스터의 주요 업데이트 이후 존재하지 않는 모듈을 찾고 있기 때문에 오류가 발생합니다. 모듈이 내 스크립트에 로드되지 않으므로 내 스크립트가 문제의 직접적인 원인이 아닙니다. 한 가지 가설은 lmod 캐시가 오래되었지만 해당 캐시가 어디에 있는지 모른다는 것입니다. 또는 관련 모듈 "intel/2018a"가 소스 파일에 로드됩니다. 오류의 전체 메시지는 다음과 같습니다. > # User specific environ...

Admin

컴퓨터 클러스터를 사용하여 임의 바이너리 실행
cluster

컴퓨터 클러스터를 사용하여 임의 바이너리 실행

VPS가 3개 있습니다. 마스터, 슬레이브1, 슬레이브2를 가정합니다. 그들의 사양은 동일합니다. 프로세서: 1CPU 메모리: 1GB 디스크: 10GB 네트워크: LAN 내에서 서로 실행 메인 VPS에서 실행되는 임의의 바이너리(프로세스)를 VPS로 간주하고 싶습니다. 이는 마스터 VPS의 작업량이 네트워크를 통해 슬레이브 VPS로 공유된다는 것을 의미합니다. 따라서 프로그램은 다음 사양을 갖춘 컴퓨터에서 실행되고 있음을 보게 됩니다. 프로세서: 3CPU 메모리: 3GB 디스크: 30GB 문제...

Admin

서버와 NFS 볼륨 간의 HDR Infiniband 네트워크 처리량을 최대한 활용할 수 있습니까?
cluster

서버와 NFS 볼륨 간의 HDR Infiniband 네트워크 처리량을 최대한 활용할 수 있습니까?

저는 CPU 클러스터를 구축하는 프로젝트를 진행 중이며, 서버와 NFS 스토리지(병렬 파일 시스템 아님)는 HDR InfiniBand 케이블을 통해 연결됩니다. 이 아키텍처에서는 InfiniBand 네트워크를 통해 적절한 스토리지 I/O 성능을 얻을 수 있으며 NFS는 InfiniBand 통신을 지원합니까? 아니면 스토리지를 쓰고 읽으려면 200G 이더넷(IB 네트워크 아님) 패브릭을 구축해야 합니까? 그렇다면 구성해야 할 사항이 있습니까? ...

Admin

클러스터 헤드 노드에서 linpack을 실행할 수 없습니다.
cluster

클러스터 헤드 노드에서 linpack을 실행할 수 없습니다.

나는 최근에 나만의 홈 클러스터(Raspberry Pi 4개)를 만들었습니다. 그런데 Linpack을 사용하여 4개 유닛을 모두 벤치마킹하려고 할 때 문제가 발생합니다. 노드 중 하나는 wlan0 인터페이스를 사용하여 인터넷과 로컬 Wi-Fi 네트워크에 연결하고 eth0을 사용하여 클러스터의 내부 LAN에 연결하는 rpislave1이라는 헤드 노드입니다. 다른 3개 노드는 rpislave2, rpislave3 및 rpislave4입니다. 각각은 헤드 노드인 rpislave1에 연결되어 있으며 rpis...

Admin

작업 스케줄러를 사용하지 않고 공유 파일 시스템이 있는 여러 Linux 서버를 어떻게 설정합니까?
cluster

작업 스케줄러를 사용하지 않고 공유 파일 시스템이 있는 여러 Linux 서버를 어떻게 설정합니까?

저는 주로 딥 러닝 작업을 위해 연구실에서 여러 GPU 서버를 관리합니다. 우리는 이들 머신이 동일한 파일 시스템을 공유하여 머신 간 전환이 더 쉽기를 원합니다. 현재 NFS를 사용하여 /home모든 컴퓨터에서 폴더를 공유하고 있지만 모든 컴퓨터에 시스템 업데이트(예: 기본 폴더 외부의 NVIDIA 드라이버)를 설치하는 것은 각 컴퓨터에서 수행해야 하기 때문에 번거롭습니다. 전체 파일 시스템(root)을 공유할 수 있는 방법이 있는지 궁금합니다 /. 내 관심사는 이러한 컴퓨터가 서로 다른 구성(다른 ...

Admin

디스크 없는 노드 클러스터의 파일 시스템 구조를 설계하는 올바른 방법
cluster

디스크 없는 노드 클러스터의 파일 시스템 구조를 설계하는 올바른 방법

저는 Linux 클러스터링의 기본 사항을 배우려고 하여 매우 간단한 클러스터를 설계하기 시작했습니다. 워커 노드 6개(리브레 컴퓨터 라 프리드 | Cortex-A53 @ 1.2 GHz |1GB RAM) 마스터 노드 1개 (라즈베리 파이 4 모델 B | Cortex-A72 @ 1.5GHz |2GB 메모리) 16포트 기가비트 이더넷 스위치 500GB 솔리드 스테이트 드라이브네트워크에서 NFS를 통해 공유 저는 그냥 k3s를 실행할 계획인데, 작동하는 SBC 보드의 디스크 없는 특성으로 인해,"루트 ...

Admin

LAN을 잃지 않고 인터넷 접속을 제거하세요
cluster

LAN을 잃지 않고 인터넷 접속을 제거하세요

작은 클러스터(Debian 10을 실행하는 모든 노드)가 있고 모든 슬레이브 노드에서 인터넷 연결을 제거해야 합니다. 인터넷 케이블 연결은 방화벽 역할을 하는 컴퓨터로 연결되고 해당 컴퓨터는 스위치를 제공합니다. 모든 클러스터 컴퓨터가 스위치에 연결됩니다. 방화벽 컴퓨터는 모든 연결을 스위치의 마스터 노드로 리디렉션합니다. 노드와 클러스터 간의 연결은 SSH를 통해 수행됩니다. 인터넷 공급자는 정책을 변경했으며 이제 더 이상 모든 컴퓨터를 동일한 포트에 연결할 수 없습니다. 그런 다음 내가 원하는 것...

Admin

클러스터에서 스토리지 서버로 매우 큰 데이터 세트 전송
cluster

클러스터에서 스토리지 서버로 매우 큰 데이터 세트 전송

우리는 매우 큰 데이터 세트(페타바이트 단위로 측정)를 HPC 클러스터에서 스토리지 서버로 이동해야 했습니다. 우리는 장치 간 대용량 통신 링크를 보유하고 있습니다. 그러나 병목 현상은 개별 파일을 병렬화할 수 있는 빠른 전송 도구인 것 같습니다(각 개별 파일의 크기가 테라바이트이므로). 이런 점에서 저는 관리자 권한이 필요하지 않고 scp나 rsync보다 훨씬 빠른 도구를 찾고 있습니다. 관리자 권한 없이 로컬에 설치할 수 있는 도구가 있다면 그것도 유용할 것입니다. 나는이 링크를 발견했습니다 (두...

Admin

동일한 GPU에서 여러 SLURM 작업 실행
cluster

동일한 GPU에서 여러 SLURM 작업 실행

따라서 저는 결코 시스템 관리자는 아니지만 많은 수의 작업(약 5000개)을 시작하려면 기존 SLURM 설치를 사용해야 합니다. 클러스터는 GPU 10개(각 GPU의 메모리는 8GB)와 CPU 56개를 갖춘 노드 1개로 구성됩니다. sbatch <file>각 작업은 내가 실행 한 후 sview무슨 일이 일어나고 있는지 확인하는 데 사용하는 배치 스크립트입니다. 이러한 작업은 GPU에서 실행되어야 하지만 GPU 메모리 요구 사항이 상당히 낮기 때문에(약 2GB) 단일 GPU에 3개를 넣을 수...

Admin

VG가 클러스터링되었는지 확인하는 방법은 무엇입니까?
cluster

VG가 클러스터링되었는지 확인하는 방법은 무엇입니까?

GFS2 파일 시스템이 설치된 CentOS 7 Pacemaker 클러스터가 있습니다. vgchange -cy vg_name설치하는 동안 실행되지 않았다고 확신합니다 . 실행을 시도했는데 vgchange --test -cy vg_name볼륨 그룹이 이미 클러스터되어 있다는 메시지가 표시되었습니다. Linux 6에서는 service clvmd statusvg가 클러스터링되었는지 여부가 표시됩니다. 그러나 Linux 7에서는 pcs resource show clvmd출력이 완전히 다르므로 무엇을 찾아야 할...

Admin

Clustersh: 창이 알파벳순으로 정렬되는 것을 방지합니다.
cluster

Clustersh: 창이 알파벳순으로 정렬되는 것을 방지합니다.

cssh저는 Debian 10(패키지) 을 사용하고 있습니다 clusterssh 4.13.2-2. 여러 서버에 연결할 때: cssh foo bar zz aa cssh는 4개의 터미널을 열고알파벳순으로! 이렇게 하면 다음과 같이 화면의 창 순서를 지정할 수 있습니다. aa bar foo zz 이것은 순수한 악입니다! 창을 원래 순서대로 유지하려면 어떻게 해야 합니까? Perl 코드에 몇 가지 빠른 수정 사항이 있습니까? ...

Admin