Linux Pacemaker: "실행할 수 없는 시작(차단됨)"으로 표시되는 리소스가 생성되었습니다.

Linux Pacemaker: "실행할 수 없는 시작(차단됨)"으로 표시되는 리소스가 생성되었습니다.

우리는 SLES 12 SP4를 사용하고 있습니다.

오늘의 테스트에서 우리는 몇 가지 사실을 관찰했습니다. 단계는 다음과 같습니다.

1 단계: "Node01에서) 명령을 사용하여 커널 패닉을 생성하는 경우에코 'b' > /proc/sysrq-trigger" 또는"에코 'c' > /proc/sysrq-trigger리소스가 실행 중인 노드에서 클러스터는 변경 사항을 감지하지만 다른 활성 노드에서 리소스(SBD 제외)를 시작할 수 없습니다.

2 단계: 로그에 따르면 다음과 같은 오류를 찾을 수 있습니다.

pengine:     info: LogActions:       Leave      stonith-sbd           (Started node02)
pengine:   notice: LogAction:      * Start      pri-javaiq            (node02 )   due to unrunnable nfs_filesystem start (blocked)
pengine:   notice: LogAction:      * Start      lb_health_probe       (node02 )   due to unrunnable nfs_filesystem start (blocked)
pengine:   notice: LogAction:      * Start      pri-ip_vip            (node02 )   due to unrunnable nfs_filesystem start (blocked)
pengine:   notice: LogAction:      * Start      nfs_filesystem        (node02 )   blocked

3단계: 그러나 노드("커널 패닉"을 생성한)에서 "init 6"을 실행하면 놀랍게도 다른 노드의 리소스가 성공적으로 시작되어 실행됩니다.

답변1

내 생각엔 워치독을 올바르게 설정하거나 구성하지 않은 것 같습니다.

SBD 펜싱은 두 부분으로 구성되어 있기 때문에 작동합니다. 첫째, 공유 스토리지를 통해 오작동하는 노드에 "포이즌 필"이 전달됩니다. SBD가 실패하면 감시 장치가 노드를 다시 시작하고 노드는 "자살"할 수 없습니다.

노드가 충돌/패닉 상태가 되는 것 같으므로 해당 시점에서 자체 격리할 수 있는 방법이 없으며 시스템을 재부팅하기 위해 감시 장치에 의존해야 합니다. 이는 또한 watchdog이 수행할 작업을 수동으로 효과적으로 수행했기 때문에 init 6을 실행할 때 예상한 대로 작동하는 이유를 설명합니다.

SuSE에는 감시가 필요한 이유와 구성 방법에 대한 설명을 포함하여 뛰어난 SBD 보호 문서가 있습니다.https://documentation.suse.com/sle-ha/15-SP1/html/SLE-HA-all/cha-ha-storage-protect.html

답변2

마침내 우리는 그 이유를 찾았습니다. 이는 부팅 시 Pacemaker 서비스가 활성화되기 때문입니다. 맥박 조정기 서비스를 비활성화하면 이제 문제가 없습니다.

관련 정보