단일 시스템의 작업 대기열

단일 시스템의 작업 대기열

CentOS 7.2를 실행하는 Tesla GPU 한 쌍과 32개 코어를 갖춘 시뮬레이션 실행을 위한 빛나는 새 서버가 있습니다. 여러 사용자가 대기열에 추가되어 이전 작업이 완료될 때 실행되는 작업을 서버에 제출할 수 있기를 바랍니다. PBS/TORQUE와 같은 일종의 우선 순위 시스템 및 시간 제한을 사용하는 것이 좋지만 하나의 클러스터가 아닌 단일 시스템에 대한 것입니다. 단일 시스템에 대해 TORQUE를 설치하고 구성할 수 있다는 것을 알고 있지만 이는 과도한 것 같습니다. 이론적으로 스케줄러는 작업이 완료되거나 시간 초과될 때만 실행되어야 합니다. 아마도 나만의 스크립트 세트를 만들 수 있을 것입니다. 하지만 솔루션이 이미 존재하는지 궁금합니다.

답변1

TaskSpooler를 고려해보세요 -http://viric.name/soft/ts/.

"at"처럼 작동하는 것처럼 보이지만 모든 것을 동일한 순차 대기열에 넣습니다.

답변2

HTC콘도르독립 실행형 설치를 탁월하게 지원하는 클러스터 소프트웨어입니다. minicondor독립형 설정을 위해 특별히 Docker 이미지 도 제공합니다 .https://htcondor.readthedocs.io/en/latest/getting-htcondor/for-docker.html 하지만 Docker 없이 설치할 수도 있습니다.

~에서공식 웹 사이트:

HTCondor는 소규모부터 대규모까지 다양한 네트워크 규모에 사용할 수 있습니다. 단일 시스템에서 HTCondor는 모니터링 도구로 작동하여 사용자가 다른 목적으로 시스템을 사용할 때 작업을 일시 중지하고 시스템을 재부팅할 때 작업을 다시 시작할 수 있습니다.

HTCondor는 Red Hat에서 부분적으로 개발되었으므로 CentOS와 같은 RPM 기반 배포판을 잘 지원합니다.

관련 정보