@GR21

Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Доброго дня!

Первый мой опыт с Corosync+Pacemaker. До этого только heartbeat с установкой по мануалу.
Ставил связку pacemaker/corosync по https://habr.com/ru/company/postgrespro/blog/359230/ без PostgreSQL правда.

Так вот, связка CentOS 7 x 4 сервера в разных ДЦ. Между ними OpenVPN и сеть 172.16.172.0/24.
В штатном режиме проблем нет, повышенной нагрузки нет. Если запустить ребут сервера, то VirtualIP переключается отлично. Из ресурсов только используется VirtualIP и прозрачный проксик:

# pcs status
Cluster name: hacluster
Stack: corosync
Current DC: node2 (version 1.1.19-8.el7_6.4-c3c624ea3d) - partition with quorum
Last updated: Sat Jun 15 14:00:36 2019
Last change: Sat Jun 15 02:25:39 2019 by hacluster via crmd on platinum

4 nodes configured
1 resource configured

Online: [ node1 node2 node3 master ]

Full list of resources:

 virtualIP      (ocf::heartbeat:IPaddr2):       Started node1

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled


Вчера из-за проблем с сетью в одном из ДЦ, одна нода вывалилась. Так нагрузка по CPU от corosync сразу же на каждой ноде взлетела до 100%, а кластер без одной вывалившейся ноды восстановить не получалось. Поднялся кластер только после того, как спустя 4 часа недоступная ранее нода вернулась в сеть.

Не помогало удаление ноды:

pcs cluster localnode remove node1

Подскажите, может чего упустил? Что-то нужно докрутить?

С Уважением,
Алексей.
  • Вопрос задан
  • 231 просмотр
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы