SLURM 파티션 구성: 일시중단 및 다시 큐

SLURM 파티션 구성: 일시중단 및 다시 큐

SLURM 서버를 구성하는 데 약간의 어려움이 있습니다. 짧은 대기열의 우선 순위가 더 높고 작업을 즉시 일시 중지하거나 우선 순위가 낮은 작업에 다시 대기열을 추가할 수 있도록 여러 대기열(파티션)을 갖고 싶습니다.

아이디어는 4개의 대기열을 갖는 것입니다.

  • 무제한: 일할 수 있는 시간이 무제한입니다. 모든 노드가 존재합니다. 가장 낮은 우선순위. 우선 순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 다시 대기열에 추가됩니다.
  • 배치: 24시간 근무. 모든 노드가 존재합니다. 우선순위는 위보다 높습니다. 우선 순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 다시 대기열에 추가됩니다.
  • 단축: 4시간 근무. 노드 3개(이전 파티션과 공유) 우선순위는 위보다 높습니다. 우선순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 일시 중단됩니다.
  • cpupower: 1시간 작업. 노드 1개(우리 팜에서 가장 좋은 노드이며 이전 파티션과 공유됨) 가장 높은 우선순위. 그러한 작업이 너무 많지 않는 한 이 대기열에 들어가야 합니다.

매뉴얼을 보면 다음과 같이 작동하는 것 같지만 작업이 일시 중지되거나 다시 대기열에 추가되는 일은 없습니다.

PartitionName=infinite Nodes=ALL              Default=NO  MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch    Nodes=ALL              Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short    Nodes=node[001,002,0032] Default=NO  MaxTime=4:00:00  Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003           Default=NO  MaxTime=1:00:00  Priority=40 OverSubscribe=NO      PreemptMode=off     State=UP

어쩌면 다른 것이 필요할까요?

관련 정보