클라우드 인스턴스에서 높은 소프트웨어 중단 비율의 근본 원인 찾기

Question

60초에 약 20K입니다.

초당 400개 미만이며, 많은 코어가 잠자고 정기적인 작업을 수행하는 시스템에서는 대략적으로 이러한 작업이 주기적으로 깨어납니다.

그러나 2코어(CPU 코어 1개와 하이퍼스레드 2개 이상) 서버에서는 라이브 오디오 시스템(예: 잭)을 실행하지 않을 수도 있습니다. 또한 최대 절전 모드로 전환할 수 있는 코어는 하나만 있습니다.

vCPU 2개, 16G 메모리 KVM 기반 클라우드 인스턴스의 AWS 기반 Debian 9(스트레치).

아하!

실제 인터럽트 핸들러 소스 코드의 주석 비교커널 버전에서:

/*
 * KVM uses this interrupt to force a cpu out of guest mode
 */

즉, 가상 머신이나 소프트웨어에 전혀 문제가 없을 수도 있습니다. 단지 KVM 하이퍼바이저가 다른 작업을 수행하기 위해 현재 가상 머신에서 사용 중인 CPU 코어 중 하나를 전환하려고 한다는 것입니다.

아마도 이는 로드가 가볍고 Amazon은 지속적으로 CPU 코어의 전체 성능을 기대하지 않기 때문에 더 많은 사용자에게 동일한 CPU 시간을 판매할 수 있다고 생각하기 때문일 것입니다.

실험을 해보세요: 그것을 실행 stress -c 2하고 높은 부하(의심할 바 없이 페이로드 성능에 나쁜 영향)가 일정 조정 인터럽트 횟수를 크게 줄이는지 확인하십시오.

그러나 실제로 얻을 수 있는 효과는 매우 작습니다. AWS는 낭비된 시스템에 더 높은 성능을 보상할 것이라고 생각합니다. 따라서 문제는 이러한 일정 조정 중단이 용납될 수 없는지 여부입니다. 이는 주로 두 CPU의 절반보다 적은 리소스를 사용할 때 발생할 수 있습니다. 스레드.

Answer 1