따라서 저는 듀얼 Intel Silver 4116 CPU 서버를 가지고 있으며 MHz를 무작위로 132로 설정하고 그 후에는 서버를 사용할 수 없게 됩니다. 재부팅 후에도 MHz를 되돌릴 수 있는 방법은 없으며, 데이터 센터로 이동하여 10초 정도 서버 전원을 꺼서 800MHz(유휴 클럭 속도)로 돌아가는 방법밖에 없습니다.
나는 가지고있다:
- intel_pstate 드라이버를 비활성화하고 acpi-cpufreq가 실행 중인지 확인하세요.
- 거버너를 성능 또는 사용자 공간으로 설정
- 수동으로 주파수 설정
roderick@super:~$ cpupower frequency-info
analyzing CPU 0:
driver: acpi-cpufreq
CPUs which run at the same hardware frequency: 0
CPUs which need to have their frequency coordinated by software: 0
maximum transition latency: 10.0 us
hardware limits: 800 MHz - 2.10 GHz
available frequency steps: 2.10 GHz, 2.10 GHz, 2.00 GHz, 1.90 GHz, 1.80 GHz, 1.70 GHz, 1.60 GHz, 1.50 GHz, 1.40 GHz, 1.30 GHz, 1.20 GHz, 1.10 GHz, 1000 MHz, 900 MHz, 800 MHz
available cpufreq governors: conservative ondemand userspace powersave performance schedutil
current policy: frequency should be within 1.80 GHz and 1.80 GHz.
The governor "userspace" may decide which speed to use
within this range.
current CPU frequency: Unable to call hardware
current CPU frequency: 136 MHz (asserted by call to kernel)
boost state support:
Supported: yes
Active: yes
roderick@super:~$ lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 48
On-line CPU(s) list: 0-47
Thread(s) per core: 2
Core(s) per socket: 12
Socket(s): 2
NUMA node(s): 2
Vendor ID: GenuineIntel
CPU family: 6
Model: 85
Model name: Intel(R) Xeon(R) Silver 4116 CPU @ 2.10GHz
Stepping: 4
CPU MHz: 132.425
CPU max MHz: 2101.0000
CPU min MHz: 800.0000
BogoMIPS: 4200.00
Virtualisation: VT-x
L1d cache: 32K
L1i cache: 32K
L2 cache: 1024K
L3 cache: 16896K
NUMA node0 CPU(s): 0-11,24-35
NUMA node1 CPU(s): 12-23,36-47
Flags: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb cat_l3 cdp_l3 invpcid_single pti intel_ppin ssbd mba ibrs ibpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm cqm mpx rdt_a avx512f avx512dq rdseed adx smap clflushopt clwb intel_pt avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local dtherm ida arat pln pts hwp hwp_act_window hwp_epp hwp_pkg_req pku ospke
CPU MHZ가 어떻게 이렇게 떨어질 수 있는지 헷갈립니다. 과열이나 과사용이 아닌 온도와 사용률을 기록하고 있습니다.
성능 또는 사용자 공간 거버너에서 빈도를 설정하는 것은 효과가 없습니다.
roderick@super:~$ sudo cpupower --cpu all frequency-set --freq 800MHz
Setting cpu: 0
Setting cpu: 1
... omitted for clarity
Setting cpu: 46
Setting cpu: 47
(댓글에 대한 답변)
- 서버는 약 6개월이 지났고 데이터 센터에 있으며 BIOS를 업그레이드하는 방법/사용 가능한 업데이트가 있는지/하는 방법을 모릅니다(방문하여 시도해 보십시오).
- 최신 마이크로코드를 실행하고 있는 것 같습니다.
roderick@super:~$ dmesg | grep microcode
[ 0.000000] microcode: microcode updated early to revision 0x200004d, date = 2018-05-15
[ 141.175011] microcode: sig=0x50654, pf=0x1, revision=0x200004d
[ 141.359854] microcode: Microcode Update Driver: v2.2.
roderick@super:~$ sudo apt-get install intel-microcode
[sudo] password for roderick:
Reading package lists... Done
Building dependency tree
Reading state information... Done
intel-microcode is already the newest version (3.20180807a.0ubuntu0.18.04.1).
- 이 동작은 약 일주일 전에 시작되었으며 6개월 동안 아무런 문제 없이 48시간 연속 80% 용량으로 실행되는 48코어 시스템이었습니다. 하지만 이제는 용량을 약 20%로 늘렸고 클럭 주파수는 800~2100MHz에서 132MHz로 떨어졌습니다. 다시 시작하고 유휴 상태로 두면 문제가 없지만 기계 학습을 실행하면 문제가 발생합니다.