저는 Centos 클러스터를 사용하고 있으며 Nvidia GPU를 다른 사람들과 공유하고 있습니다. 클러스터의 각 노드에는 4개의 GPU가 있습니다. 저는 4개의 GPU를 주기적으로 모니터링하고 GPU의 사용 가능한 RAM이 미리 정의된 임계값을 초과할 때 (bash/python) 스크립트를 실행하는 방법을 찾고 싶습니다.
출력을 구문 분석하는 것이 가능해야 한다고 생각 nvidia-smi
하지만 나에게는 다소 복잡하게 들립니다.
이 문제를 해결하는 방법을 아는 사람이 있나요?