서버를 업그레이드했습니다. 그런 다음 내 서버에서 corosync 서비스를 하나씩 시작했습니다. 먼저 서버 3개에 시작해서 5분 정도 기다렸습니다. 그런 다음 다른 서버에서 다음 4개의 corosync를 시작했는데 7개의 서버가 동시에 충돌했습니다. 나는 5년 동안 corosync를 사용해 왔습니다. 나는 사용하고 있습니다;
Kernel: 4.14.32-1-lts
Corosync 2.4.2-1
Pacemaker 1.1.18-1
나는 이것을 전에 본 적이 없습니다. 새 corosync 버전에서 뭔가 문제가 있는 것 같아요. 정말 안타깝네요!
Kernel: 4.14.70-1-lts
Corosync 2.4.4-3
Pacemaker 2.0.0-1
-
이것은 내 corosync.conf입니다.https://paste.ubuntu.com/p/7KCq8pHKn3/ 문제의 원인을 찾는 방법을 알려주실 수 있나요?
Sep 25 08:56:03 SRV-2 corosync[29089]: [TOTEM ] A new membership (10.10.112.10:56) was formed. Members joined: 7
Sep 25 08:56:03 SRV-2 corosync[29089]: [VOTEQ ] Waiting for all cluster members. Current votes: 7 expected_votes: 28
Sep 25 08:56:03 SRV-2 corosync[29089]: [VOTEQ ] Waiting for all cluster members. Current votes: 7 expected_votes: 28
Sep 25 08:56:03 SRV-2 corosync[29089]: [VOTEQ ] Waiting for all cluster members. Current votes: 7 expected_votes: 28
Sep 25 08:56:03 SRV-2 corosync[29089]: [VOTEQ ] Waiting for all cluster members. Current votes: 7 expected_votes: 28
Sep 25 08:56:03 SRV-2 corosync[29089]: [QUORUM] Members[7]: 1 2 3 4 5 6 7
Sep 25 08:56:03 SRV-2 corosync[29089]: [MAIN ] Completed service synchronization, ready to provide service.
Sep 25 08:56:03 SRV-2 corosync[29089]: [VOTEQ ] Waiting for all cluster members. Current votes: 7 expected_votes: 28
Sep 25 08:56:03 SRV-2 systemd[1]: Created slice system-systemd\x2dcoredump.slice.
Sep 25 08:56:03 SRV-2 systemd[1]: Started Process Core Dump (PID 43798/UID 0).
Sep 25 08:56:03 SRV-2 systemd[1]: corosync.service: Main process exited, code=dumped, status=11/SEGV
Sep 25 08:56:03 SRV-2 systemd[1]: corosync.service: Failed with result 'core-dump'.
Sep 25 08:56:03 SRV-2 kernel: watchdog: watchdog0: watchdog did not stop!
Sep 25 08:56:03 SRV-2 systemd-coredump[43799]: Process 29089 (corosync) of user 0 dumped core.
Stack trace of thread 29089:
#0 0x0000000000000000 n/a (n/a)
Write failed: Broken pipe
coredumpctl info
PID: 23658 (corosync)
UID: 0 (root)
GID: 0 (root)
Signal: 11 (SEGV)
Timestamp: Mon 2018-09-24 09:50:58 +03 (1 day 3h ago)
Command Line: corosync
Executable: /usr/bin/corosync
Control Group: /system.slice/corosync.service
Unit: corosync.service
Slice: system.slice
Boot ID: 79d67a83f83c4804be6ded8e6bd5f54d
Machine ID: 9b1ca27d3f4746c6bcfcdb93b83f3d45
Hostname: SRV-1
Storage: /var/lib/systemd/coredump/core.corosync.0.79d67a83f83c4804be6ded8e6bd5f54d.23658.153777185>
Message: Process 23658 (corosync) of user 0 dumped core.
Stack trace of thread 23658:
#0 0x0000000000000000 n/a (n/a)
PID: 5164 (corosync)
UID: 0 (root)
GID: 0 (root)
Signal: 11 (SEGV)
Timestamp: Tue 2018-09-25 08:56:03 +03 (4h 9min ago)
Command Line: corosync
Executable: /usr/bin/corosync
Control Group: /system.slice/corosync.service
Unit: corosync.service
Slice: system.slice
Boot ID: 2f49ec6cdcc144f0a8eb712bbfbd7203
Machine ID: 9b1ca27d3f4746c6bcfcdb93b83f3d45
Hostname: SRV-1
Storage: /var/lib/systemd/coredump/core.corosync.0.2f49ec6cdcc144f0a8eb712bbfbd7203.5164.1537854963>
Message: Process 5164 (corosync) of user 0 dumped core.
Stack trace of thread 5164:
#0 0x0000000000000000 n/a (n/a)
더 이상 로그를 찾을 수 없어 문제를 자세히 조사할 수 없습니다.
답변1
"corosync 2.4.2-1"로 다운그레이드한 후 문제가 해결되었습니다. 이 주제에 대해 "-" 투표를 한 이유는 무엇입니까? 보시다시피, 그것은 corosync 또는 아치 빌더의 잘못이라는 것이 매우 분명합니다.
문제가 발생하면 다운그레이드하여 시간을 절약하세요.