SLURM 서버를 구성하는 데 약간의 어려움이 있습니다. 짧은 대기열의 우선 순위가 더 높고 작업을 즉시 일시 중지하거나 우선 순위가 낮은 작업에 다시 대기열을 추가할 수 있도록 여러 대기열(파티션)을 갖고 싶습니다.
아이디어는 4개의 대기열을 갖는 것입니다.
- 무제한: 일할 수 있는 시간이 무제한입니다. 모든 노드가 존재합니다. 가장 낮은 우선순위. 우선 순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 다시 대기열에 추가됩니다.
- 배치: 24시간 근무. 모든 노드가 존재합니다. 우선순위는 위보다 높습니다. 우선 순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 다시 대기열에 추가됩니다.
- 단축: 4시간 근무. 노드 3개(이전 파티션과 공유) 우선순위는 위보다 높습니다. 우선순위가 더 높은 대기열의 작업에 노드가 필요한 경우 작업이 일시 중단됩니다.
- cpupower: 1시간 작업. 노드 1개(우리 팜에서 가장 좋은 노드이며 이전 파티션과 공유됨) 가장 높은 우선순위. 그러한 작업이 너무 많지 않는 한 이 대기열에 들어가야 합니다.
매뉴얼을 보면 다음과 같이 작동하는 것 같지만 작업이 일시 중지되거나 다시 대기열에 추가되는 일은 없습니다.
PartitionName=infinite Nodes=ALL Default=NO MaxTime=INFINITE Priority=10 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=batch Nodes=ALL Default=YES MaxTime=24:00:00 Priority=20 OverSubscribe=FORCE:1 PreemptMode=requeue State=UP
PartitionName=short Nodes=node[001,002,0032] Default=NO MaxTime=4:00:00 Priority=30 OverSubscribe=FORCE:1 PreemptMode=suspend State=UP
PartitionName=cpupower Nodes=node003 Default=NO MaxTime=1:00:00 Priority=40 OverSubscribe=NO PreemptMode=off State=UP
어쩌면 다른 것이 필요할까요?