우리 연구 그룹에서는 여러 개의 NVIDIA Titan X 그래픽 카드와 꽤 많은 CPU 코어가 포함된 딥 러닝용 컴퓨팅 서버를 실행하고 있습니다. 이곳이 연구실이고 이 기계를 사용하는 사람이 10명 정도라는 점을 고려하면 CPU/GPU 코어의 로드는 거의 항상 높습니다.
이제 나는 기계가 과도하게 사용되고 있음을 보여줄 책임이 있으며 하드웨어 업그레이드를 권장할 수 있습니다. 논의를 위해 컴퓨터의 CPU/GPU/MEM 사용에 대한 자세한 기록을 만들고 싶습니다. 문제는 작업에 적합한 도구를 모른다는 것입니다. 물론 일부 스크립트를 작성할 수도 있지만 저는 시스템 관리자가 아니기 때문에 기성 도구를 선호합니다. :) CPU/GPU 사용량을 모니터링하기 위해 일반적으로 nvidia-smi
및 를 사용 htop
하지만 이는 장기 기록을 생성하는 데 적합하지 않습니다.
이런 역사를 만드는 데 조언이 있나요?