작은 클러스터가 사용할 수 없게 되는 것을 확인했습니다. 처음에는 컴퓨팅 노드와 이제 헤드 노드에서 동일한 동작이 발생했습니다. 이것이 기본 소스인지는 모르겠지만 확실히 /tmp
디렉토리의 무언가가 엉망이어서 멈춰서 ls /tmp
죽일 수 없습니다. ( /tmp
그 아래에는 /
nfs를 마운트하는 대신 다른 모든 것을 볼 수 있습니다. /var/log
) /proc
액세스를 기대하는 데몬과 실행 중인 작업이 많기 때문에 /tmp
이것이 이해가 되며 이것이 문제의 중요한 부분입니다.
하드 재부팅으로 문제를 일시적으로 해결할 수 있지만 장기적인 해결 방법은 아닙니다.
제안을 환영합니다. 그냥 "ls -ld /tmp &"를 실행하세요. ls보다 더 많은 작업을 수행하지는 않습니다...
참고: 문제가 발생하면 /tmp가 엉망이 됩니다. 그렇지 않으면 (현재로서는) 괜찮습니다.
[ldm@head ~]$ df -h /tmp
Filesystem Size Used Avail Use% Mounted on
/dev/md126 221G 143G 78G 65% /
[ldm@head ~]$ ls -ld /tmp
drwxrwxrwt. 12 root root 20480 Jan 26 08:45 /tmp
참고로:
uname -a
"Linux head.cluster 3.10.0-1062.1.1.el7.x86_64 #1 SMP Fri Sep 13 22:55:44 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux
cat /etc/os-release
NAME="CentOS Linux"
VERSION="7 (Core)"
문제가 간헐적으로 발생합니다. 방금 컴퓨팅 노드 중 하나에 다시 나타나서 마침내 dmseg -H:
[Feb 7 00:51] INFO: task kworker/4:2:20770이 120초 이상 차단되었음을 표시했습니다.
[+0.007162] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs"는 이 메시지를 비활성화합니다.
[+0.008112] kworker/4:2 D ffff985b47709040 0 20770 2
[+0.007307] 작업 대기열: 이벤트 xprt_rdma_connect_worker [rpcrdma]
[+0.006210] 호출 추적:
[+0.002638][]schedule+0x29/0x70
[+0.005 1 59] [ ] 시간 초과 예약 +0x221/0x2d0
[ +0.006035] [] ? mthca_modify_qp+0x8f/0x310 [ib_mthca]
[ +0.006988] [] wait_for_completion+0xfd/0x140
[ +0.006204] [] ? wake_up_state+0x20/0x20
[+0.005776] [] __ib_drain_sq+0x181/0x1c0 [ib_core]
[+0.006638] [] ? ib_sg_to_pages+0x1a0/0x1a0 [ib_core]
[ +0.006902] [] ib_drain_sq+0x25/0x30 [ib_core]
[ +0.006292] [] ib_drain_qp+0x12/0x30 [ib_core]
[ +0.006291] [] rpcrdma_ep_disconnect+ 0x58/0x150 [rpcrdma]
[ +0.007244][]rpcrdma_ep_connect+0x139/0x400[rpcrdma]
[+0.007073][]? wake_up_atomic_t+0x30/0x30
[ +0.006022] [] xprt_rdma_connect_worker+0x33/0x60 [rpcrdma]
[ +0.007505] [] process_one_work+0x17f/0x440
[ +0.006022] []worker_thread+0x126/0x3c0
[ +0.0 0 5765장manage_workers.isra . 25+0x2a0/0x2a0
[ +0.006725] [] kthread+0xd1/0xe0
[ +0.005071] [] ? insert_kthread_work+0x40/0x40
[+0.006285] [] ret_from_fork_nospec_begin+0x21/0x21
[+0.006714] [] ? insert_kthread_work+0x40/0x40
ls -ld /tmp
drwxrwxrwt 8 루트 루트 169 2월 7일 11:28 /tmp
ls -ld /boot
dr-xr-xr-x 5 루트 루트 4096 1월 16일 12:09 /boot
ls -ld / hang 시작 중 - NFS 마운트가 작동하지 않는 것 같습니다.