동일한 구성을 가진 2개의 서버가 있는데 하나는 더 높게 표시되고 %sy
다른 하나는 그렇지 않습니다. 이는 시스템이 작업 중임을 나타내는 것 같습니다.
Cpu(s): 28.1%us, 66.3%sy, 0.7%ni, 4.8%id, 0.0%wa, 0.2%hi, 0.0%si, 0.0%st
내 질문
커널의 어떤 하위 모듈이 그렇게 높은 로드를 유발하는지 어떻게 확인할 수 있습니까?
추가 정보
- 두 시스템 모두 Ubuntu 12.04 LTS입니다.
- 두 시스템 모두 AWS(Amazon)에서 실행되는 EC2 인스턴스입니다.
영향을 받는 시스템에는 다음 메시지와 함께 로그에 나타나는 스택 추적과 유사한 내용이 있습니다.
소프트 잠금 메시지[33644527.529071] BUG: soft lockup - CPU#0 stuck for 23s! [monitorcron:31103]
[33644527.529087] Modules linked in: isofs ip6table_filter ip6_tables ipt_REJECT xt_state iptable_filter xt_REDIRECT xt_comment xt_multiport iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack ip_tables x_tables intel_rapl x86_pkg_temp_thermal coretemp crct10dif_pclmul crc32_pclmul ghash_clmulni_intel aesni_intel ablk_helper cryptd lrw gf128mul glue_helper aes_x86_64
스택 추적
[33644527.529116] CPU: 0 PID: 31103 Comm: moncron Tainted: G W 3.13.0-34-generic #60~precise1-Ubuntu
[33644527.529120] task: ffff8800a565afe0 ti: ffff8800c6150000 task.ti: ffff8800c6150000
[33644527.529122] RIP: e030:[<ffffffff8175f32f>] [<ffffffff8175f32f>] _raw_spin_unlock+0x1f/0x30
[33644527.529133] RSP: e02b:ffff8800c6151c58 EFLAGS: 00000286
[33644527.529135] RAX: ffff8801aed728c0 RBX: ffff8800c6151cc0 RCX: ffff8801aed728c0
[33644527.529137] RDX: ffff8801aed728c0 RSI: 00000000a10ca10a RDI: ffff8801aed72898
[33644527.529139] RBP: ffff8800c6151c58 R08: 000000000000000a R09: 0000000000000000
[33644527.529141] R10: 0000000000000131 R11: 0000000000000130 R12: ffff8801aed72840
[33644527.529142] R13: ffff8801aed728c0 R14: ffff8801aed72898 R15: ffff8801aed72840
[33644527.529149] FS: 00007f37888a8700(0000) GS:ffff8801dee00000(0000) knlGS:0000000000000000
[33644527.529152] CS: e033 DS: 0000 ES: 0000 CR0: 000000008005003b
[33644527.529153] CR2: 0000000000dac3b8 CR3: 00000000051e5000 CR4: 0000000000002660
[33644527.529156] Stack:
[33644527.529158] ffff8800c6151ca8 ffffffff811e0a98 ffff8800c6151cb8 ffff8801aed728c0
[33644527.529161] ffff8800c6151d00 ffff8800c6151cc0 ffff8801aee64900 0000000000007980
[33644527.529164] 0000000000007980 ffff8801aee64900 ffff8800c6151ce8 ffffffff811e0c18
[33644527.529168] Call Trace:
[33644527.529177] [<ffffffff811e0a98>] shrink_dentry_list+0x28/0xe0
[33644527.529181] [<ffffffff811e0c18>] shrink_dcache_parent+0x28/0x70
[33644527.529188] [<ffffffff81232257>] proc_flush_task_mnt.isra.15+0x77/0x170
[33644527.529194] [<ffffffff81235776>] proc_flush_task+0x56/0x70
[33644527.529200] [<ffffffff8106c803>] release_task+0x33/0x130
[33644527.529204] [<ffffffff8106cdcf>] wait_task_zombie+0x4cf/0x5f0
[33644527.529209] [<ffffffff8106cffb>] wait_consider_task.part.8+0x10b/0x180
[33644527.529213] [<ffffffff8106d0d5>] wait_consider_task+0x65/0x70
[33644527.529217] [<ffffffff8106d1e1>] do_wait+0x101/0x260
[33644527.529220] [<ffffffff8106e213>] SyS_wait4+0xa3/0x100
[33644527.529225] [<ffffffff8106bc10>] ? task_stopped_code+0x50/0x50
[33644527.529231] [<ffffffff8176853f>] tracesys+0xe1/0xe6
[33644527.529232] Code: 66 66 66 2e 0f 1f 84 00 00 00 00 00 66 66 66 66 90 55 48 89 e5 e9 0a 00 00 00 66 83 07 02 5d c3 0f 1f 40 00 8b 37 f0 66 83 07 02 <f6> 47 02 01 74 ed e8 d0 74 fe ff 5d c3 0f 1f 40 00 66 66 66 66
나는 이것이 관련이 있다고 가정하지만 어떻게, 왜(그렇다면) 결정하지 않았습니다.
답변1
먼저 이 문제가 단일 프로세스/응용 프로그램으로 인해 발생하는지 아니면 시스템 전체에서 발생하는지 확인해야 합니다. 이 작업을 보다 직접적인 방법으로 수행할 수 있는 몇 가지 도구(제가 알지는 못함)가 있을 수 있지만 도구가 없으면 CPU 시간의 관련 부분을 소비하는 모든 프로세스를 반복하고 중지하는 것이 좋습니다. 잠시 동안 ( kill -STOP $PID
). 이것이 하나 또는 몇 개의 프로세스로 인해 발생하는 경우 %sy
값이 상당히 떨어집니다.
그러한 프로세스를 찾으면 strace -c -p $PID
몇 초 동안 연결하여 어떤 시스템 호출이 얼마나 오랫동안 사용되는지 확인할 수 있습니다. 이를 통해 어떤 커널 부분이 관련되어 있는지에 대한 힌트를 얻을 수 있습니다(특히 다른 시스템의 출력과 비교할 경우).