Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Question

GR21 @GR21

Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Доброго дня!

Первый мой опыт с Corosync+Pacemaker. До этого только heartbeat с установкой по мануалу.
Ставил связку pacemaker/corosync по https://habr.com/ru/company/postgrespro/blog/359230/ без PostgreSQL правда.

Так вот, связка CentOS 7 x 4 сервера в разных ДЦ. Между ними OpenVPN и сеть 172.16.172.0/24.
В штатном режиме проблем нет, повышенной нагрузки нет. Если запустить ребут сервера, то VirtualIP переключается отлично. Из ресурсов только используется VirtualIP и прозрачный проксик:

# pcs status
Cluster name: hacluster
Stack: corosync
Current DC: node2 (version 1.1.19-8.el7_6.4-c3c624ea3d) - partition with quorum
Last updated: Sat Jun 15 14:00:36 2019
Last change: Sat Jun 15 02:25:39 2019 by hacluster via crmd on platinum

4 nodes configured
1 resource configured

Online: [ node1 node2 node3 master ]

Full list of resources:

 virtualIP      (ocf::heartbeat:IPaddr2):       Started node1

Daemon Status:
  corosync: active/enabled
  pacemaker: active/enabled
  pcsd: active/enabled

Вчера из-за проблем с сетью в одном из ДЦ, одна нода вывалилась. Так нагрузка по CPU от corosync сразу же на каждой ноде взлетела до 100%, а кластер без одной вывалившейся ноды восстановить не получалось. Поднялся кластер только после того, как спустя 4 часа недоступная ранее нода вернулась в сеть.

Не помогало удаление ноды:

pcs cluster localnode remove node1

Подскажите, может чего упустил? Что-то нужно докрутить?

С Уважением,
Алексей.

Вопрос задан более трёх лет назад
268 просмотров

3 комментария

Подписаться 1 Простой 3 комментария

dimti @dimti

Удалось ли понять причину нагрузки от corosync?

Написано более трёх лет назад
GR21 @GR21 Автор вопроса

dimti, нет. Не удалось. Сейчас кластер работает на трёх нодах (одна вывалилась), и таких проблем уже не замечаю.

Вывалившаяся нода ни в какую не хотела возвращаться в строй. Грешу на провайдера и его АнтиДДОС. Но пока больше не вникал.

Аналогичная проблема? Сколько нод?

Написано более трёх лет назад
dimti @dimti

Одна нода, я не успел собрать кластер, так как оказалось что нельзя действующий сервер подрубить просто так в кластер, нужно его полностью вайпнуть и пока что одна нода - сам себе кластер.

Сегодня начались проблемы, то ли из-за копирования большого образа с сервака на сервак по scp (вообще это странноватая теория, так как деградация по скорости пошла сразу после начала копирования, и раньше копировалось все ок), то ли просто само по себе оно решило взбунтоваться. ЦП corosync потреблял 99.99% на одно ядро и деградировал хождение сетевых пакетов (60-70% потерь) и это причем происходило волнообразно, то все нормально, то опять минут 15 идут потери и так пока я его не вырубил systemctl stop corosync.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- вчера
- 130 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 813 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 294 просмотра
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 341 просмотр
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 254 просмотра
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 141 просмотр
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1137 просмотров
1

ответ
Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- 23 мая
- 414 просмотров
3

ответа
Linux

+2 ещё

Сложный
Восстановление таблицы разделов?
- 3 подписчика
- 15 мая
- 550 просмотров
1

ответ
Linux

+3 ещё

Средний
Radxa debian почему не работает тачскрин?
- 1 подписчик
- 13 мая
- 255 просмотров
2

ответа
Показать ещё Загружается…

Удалось ли понять причину нагрузки от corosync?
dimti, нет. Не удалось. Сейчас кластер работает на трёх нодах (одна вывалилась), и таких проблем уже не замечаю.

Вывалившаяся нода ни в какую не хотела возвращаться в строй. Грешу на провайдера и его АнтиДДОС. Но пока больше не вникал.

Аналогичная проблема? Сколько нод?
Одна нода, я не успел собрать кластер, так как оказалось что нельзя действующий сервер подрубить просто так в кластер, нужно его полностью вайпнуть и пока что одна нода - сам себе кластер.

Сегодня начались проблемы, то ли из-за копирования большого образа с сервака на сервак по scp (вообще это странноватая теория, так как деградация по скорости пошла сразу после начала копирования, и раньше копировалось все ок), то ли просто само по себе оно решило взбунтоваться. ЦП corosync потреблял 99.99% на одно ядро и деградировал хождение сетевых пакетов (60-70% потерь) и это причем происходило волнообразно, то все нормально, то опять минут 15 идут потери и так пока я его не вырубил systemctl stop corosync.

Corosync загрузил CPU на 100%, когда одна нода отвалилась. Как исправить?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт