Доброго дня!
Первый мой опыт с Corosync+Pacemaker. До этого только heartbeat с установкой по мануалу.
Ставил связку pacemaker/corosync по
https://habr.com/ru/company/postgrespro/blog/359230/ без PostgreSQL правда.
Так вот, связка CentOS 7 x 4 сервера в разных ДЦ. Между ними OpenVPN и сеть 172.16.172.0/24.
В штатном режиме проблем нет, повышенной нагрузки нет. Если запустить ребут сервера, то VirtualIP переключается отлично. Из ресурсов только используется VirtualIP и прозрачный проксик:
# pcs status
Cluster name: hacluster
Stack: corosync
Current DC: node2 (version 1.1.19-8.el7_6.4-c3c624ea3d) - partition with quorum
Last updated: Sat Jun 15 14:00:36 2019
Last change: Sat Jun 15 02:25:39 2019 by hacluster via crmd on platinum
4 nodes configured
1 resource configured
Online: [ node1 node2 node3 master ]
Full list of resources:
virtualIP (ocf::heartbeat:IPaddr2): Started node1
Daemon Status:
corosync: active/enabled
pacemaker: active/enabled
pcsd: active/enabled
Вчера из-за проблем с сетью в одном из ДЦ, одна нода вывалилась. Так нагрузка по CPU от corosync сразу же на каждой ноде взлетела до 100%, а кластер без одной вывалившейся ноды восстановить не получалось. Поднялся кластер только после того, как спустя 4 часа недоступная ранее нода вернулась в сеть.
Не помогало удаление ноды:
pcs cluster localnode remove node1
Подскажите, может чего упустил? Что-то нужно докрутить?
С Уважением,
Алексей.