Есть ли Стратегия борьбы со сбросом состояния RabbitMQ?

Question

Сергей Тихонов @tumbler

бекенд-разработчик на python

Есть ли Стратегия борьбы со сбросом состояния RabbitMQ?

Всем привет!
В разных командах при использовании RabbitMQ в разработке ПО мы придерживались правила "RabbitMQ надежен как БД". Это позволяло ставить задачи для Celery, особо не заморачиваясь на тему того, что RabbitMQ может что-то потерять или как-то еще нарушить гарантии доставки. И в целом (при условии грамотной настройки Celery) этот подход себя оправдывает, однако есть нюансы.

Наши админы трижды упарывались на счет распределенного кластера кроликов, в результате получали аварии в стиле "проще перекатать кролик заново, чем разбираться в его эрланговских дампах"
С распространением Amazon/Kubernetes/Docker/вот-этого-всего stateful-кролик внезапно стал очень подвержен ошибкам администрирования вида "ой, а в нем данные что ли хранились? а он переехал"
Пару раз сталкивались с ситуациями, когда по непонятным причинам некоторые сообщения терялись. Сложно сказать, код виноват или контейнеризация, но факт - что-то нужное куда-то недолетело.

И вот вопрос: есть ли опыт по борьбе с таким поведением? Интересует общий подход к обеспечению гарантий доставки при использовании RabbitMQ в ненадежной среде.

Вопрос задан более трёх лет назад
976 просмотров

Комментировать

Подписаться 13 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 2

4 комментария

Сергей Тихонов @tumbler Автор вопроса

Если я Вас правильно понял, то всё-таки RabbitMQ - "надежен как БД", а если по факту это не так - то виноват код или админы :-) Мне самому такая позиция нравится. Остальные рекоммендации понятны. 5 пункт ведь про возможности AMQP?

Написано более трёх лет назад
Сергей @yarkin

Если все компоненты настроены на предотвращение потери данных - в RabbitMQ очереди persistent, есть резкалирование, а клиенты ждут успешной отправки и подтверждают успешную обработку сообщений (да, на уровне AMQP протокола) - то вероятность потери минимальная. Конечно RabbitMQ уступает СУБД по защите данных от потери, но и не сказать, что он о таком совсем не заботится.
Если есть возможность то всегда делайте нагрузочное тестировать и отработку отказа.

Написано более трёх лет назад
chupasaurus @chupasaurus

2) Описанные ОПом админы и в обычной среде испытывали бы те же проблемы.

Написано более трёх лет назад
Павел Безруков @bezrukovPS

К 5м пункту обратите внимание на https://www.rabbitmq.com/confirms.html

Написано более трёх лет назад

4 комментария

Decadal @Decadal

а нафига тогда кроль вообще?

Написано более трёх лет назад
Сергей Тихонов @tumbler Автор вопроса
Ну да, что-то типа такого:
Отправитель создает сообщение в RMQ, подтверждает отправку и сохраняет в БД "отправлено"
Получатель получает сообщение из RMQ, сохраняет в БД "получено"
Получатель обрабатывает сообщение, сохраняет в БД "обработано"
Получатель отправляет в RMQ сообщение-подтверждение, сохраняет "отправлено подтверждение"
Отправитель получает подтверждение из RMQ, сохраняет в БД "доставлено"

А дальше начинаются всякие гадости с подтверждением доставки подтверждения и прочими радостями post-mortem анализа.

RabbitMQ тут выступает в качестве реактивного транспорта (не поллить же БД на предмет наличия новых записей)
Большие накладные расходы на учёт всех этих сообщений в БД
Много ручного труда на поддержку консистентности
После обнаружения проблем в общем случае непонятно что делать
Написано более трёх лет назад
dkrylov @dkrylov

Сергей Тихонов, настроив раз все будет работать. А так по идее, возможно рассмотреть какие нибудь альтернативные решения, кроме раббита.

Написано более трёх лет назад
dkrylov @dkrylov

Decadal, ну да, тогда лучше другое решение какое то.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

Простой
Единые сервисы для нескольких продуктов норм или стрем?
- 1 подписчик
- 21 июн.
- 129 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 463 просмотра
3

ответа
Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 189 просмотров
4

ответа
Проектирование программного обеспечения

+2 ещё

Сложный
Как правильно организовать real-time обновление в огромном проекте?
- 1 подписчик
- 17 мая
- 149 просмотров
3

ответа
Программирование

+1 ещё

Простой
Проект для программирования?
- 2 подписчика
- 27 апр.
- 876 просмотров
9

ответов
Redis

+2 ещё

Простой
Выбор брокеров сообщений в зависимости от задачи?
- 1 подписчик
- 07 апр.
- 129 просмотров
1

ответ
Проектирование программного обеспечения

Средний
Что входит в раздел commands в CQS?
- 1 подписчик
- 30 мар.
- 76 просмотров
1

ответ
Битрикс24

+2 ещё

Простой
Есть ли готовые решения для интеграции Битрикс24 и брокера сообщений?
- 1 подписчик
- 17 мар.
- 177 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Что использовать для outbox паттерн?
- 1 подписчик
- 12 мар.
- 110 просмотров
1

ответ
Проектирование программного обеспечения

Простой
Как избежать излишнего усложнения на ранних этапах развития SaaS-проектов?
- 2 подписчика
- 03 мар.
- 164 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2018-12-19 18:53:41

1) Разработчики RabbitMQ ко всем потерям данных на стороне самого RabbitMQ относятся критично, так что, если в какой-то момент будете уверены, что теряет данные именно он, то смело создавайте баг (с подробностями как повторить).
2) Если админы не умеют настраивать стейтфул приложения в контейнерной среде или куча ручных операций, то это больше административная задача, чтобы научиться и, например, использовать шаблоны/чарты/т.п. для предотвращения сюрпризов. Но также RabbitMQ в контейнере нужно настраивать, чтобы не получать деградации и дампов.
3) Со стороны самого RabbitMQ есть зеркалирование очередей (queue mirroring) для дублирования данных, что позволит внезапно терять ноды (но восстановление может обойтись высоким потреблением процессора).
4) Также рекомендую логировать и идентифицировать каждое отправленное и полученное сообщение, чтобы оценивать проблему. Для большей достоверности можно включить логирование ещё и на уровне RabbitMQ (если позволяют ресурсы). На прошлой работе у нас был свой плагин для RabbitMQ, который получал копию всех полученных и отправленных сообщений, выгребал из них нужную метаинформацию и отправлял в Graylog.
5) Ну и конечно нужно делать отправку и приём с подтверждением, но это, я думаю, Вы и без меня уже делаете.

Answer 2 · 2018-12-19 15:55:52

а держать очередь в бд в каком либо виде если? И оттуда цеплять, перенаправлять на раббита. А по истечении проставлять статус. Экосистема небольшая, зато, я думаю, стабильно.