Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Question

ksimmi @ksimmi

Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Всем привет.

В последние почти 5 лет, довелось поучавствовать в разных ролях над тремя финтех-проектами с микросервисной архитектурой. Работая над последним из них я прочел книгу «Микросервисы. Паттерны разработки и рефакторинга» за авторством Криса Ричардсона и почерпнул оттуда желание реализации транзакционной очереди.

Вопросы:

1 Я уже ознакомился с обеими (`Transaction log tailing` и `Polling publisher`) версиями реализации предложенными Крисом Ричардсоном с использованием таблицы `OUTBOX`. Какие еще альтернативные реализации возможны?
2 Не будет ли это все слишком медленно?
3 Какие реализации/советы возможнны для стека: python, postgres, nats?
4 Я как-то давно видел плагины для postgres с прямой интеграцией толи с Kafka, толи с Rabbit, возможно найду и для nats. Хорошая ли это идея публиковать события в очередь сразу из БД? Я вижу минус в том, что не для каждой БД возможно найти такое решение. У меня в проекте не только postgres, есть и elastic, но пока что в сервисах с ним подобная транзакционность не очень нужна.

UPD
5 Если с паттерном `Polling publisher` все легко и понятно, то паттерн `Transaction log tailing` у меня вызывал и до сих пор вызывает вопросы. Разобравшись, что в случае с postgres речь идет о фоновом чтении из WAL и обработки прочтенных данных я начал искать готовые решения с этим связанные. Казалось что любой информации, кроме теоретической нет, но мне стало часто попадаться на глаза упоминание ETL-паттерна "Захват изменения данных" (Change Data Capture). Я нашел несколько готовых опенсорсных решений (Debezium, Wso2), которые реализуют этот паттерн и с одной стороны могут собирать данные из WAL, а с другой - передавать их в nats/kafka и т.д. Мне кажется, что это то что нужно. Теперь сам вопрос: как удалять обработанные данные из таблицы `OUTBOX`, после того как они будут доставлены в брокер CDC-инструментом?

Ниже описание почему я хочу попробовать...

Так или иначе мы во всех проектах использовали паттерны "Повествования" (Saga) и "Порождение событий" (Event Sourcing), которые в процессе своего исполнения вводят всю систему в состояние "отложенной согласованности". Это состояние когда каждый сервис согласован сам по себе, но в масштабах всей системы в части сервисов операция уже исполнена, а в другой - еще нет.

По большому счету это нормально и совершенно не страшно, потому что "в идеальном мире" операция в конечном итоге придет в согласованное состояние если не было ошибок. Если же ошибки возникли, то запустятся компенсируюущие транзакции, которые также вернут систему в согласованное состояние.

Однако, все три проекта не редко впадали в ситуацию, когда они не могли выйти из состостояния состояния отложенной соглассованности сами. Другими словами, иногда для того, чтобы та или иная операция окончательно выполнилась или откатилассь назад, ее приходилось "пнуть". Пинал ее либо автоматизированный механизм `health-check-poller`, который искал такие зависшие операции, либо сотрудник второй линии поддержки. после чего процесс продолжался и приводил транзакцию в согласованное состояние.

Почти всегда проблема была связана с тем, что один сервис обработал свою часть саги, внес правки в БД и не смог уведомить об этом остальную систему, т.е. не опубликовал событие в очередь. Крис Ричардсон утверждает, что оба паттерна "Повествования" и "Порождение событий" должны быть реализованы через транзакционные очереди, тем самым гарантируя, что сервис возмет сообщение из очереди брокера и либо исполнит бизнес логику, информирует остальных участников и пометит сообщение как отработанное удалив его из очереди брокера, либо не сделает ни того, ни другого и вернет сообщение в очередь брокера.

Теперь я убежден, что наличие транзакционной очереди должно сильно увеличить надежность системы и снизить затраты на поиски проблем и поддержку.

Спасибо!

Вопрос задан более трёх лет назад
1033 просмотра

4 комментария

Подписаться 8 Средний 4 комментария

Vitsliputsli @Vitsliputsli

Почему отложенная согласованность? Вернее, где вы ее применяете? Транзакция выполняется последовательно, синхронно, никакой отложенности здесь не должно быть. Если речь про что-то вроде DWH, тогда понятно.
Polling publisher наиболее распространенное решение, по-моему, надежное, и более простое по сравнению Transaction log tailing (быть может потому, что я видел только реализации по 1 сценарию).
Будет ли медленным Polling publisher? Смотря, что для вас медленно, в принципе стандартные потери на СУБД, пересылку по-сети и прочее.
Насчет публикации прямо из СУБД, не думаю, что это хорошее решение, если у вас нагруженная система, СУБД всегда узкое место, не нужно заставлять ее делать что-то еще, кроме того что она и так делает хорошо.
Насчет удаления из outbox, то мне кажется в варианте, когда вы забираете данные из журнала, нет смысла создавать outbox. Забирайте прямо из основной талицы, ориентирусь на какой-либо параметр: id, время обновления. Но нужно смотреть применимость в конкретной ситуации. Не знаю как работать с журналом, но думаю там есть встроенные идентификаторы транзакций, какой-нибудь GTID, и можно ориентироваться на него.

Написано более трёх лет назад
ksimmi @ksimmi Автор вопроса

Vitsliputsli,

Почему отложенная согласованность?

Потому что это термин ёмко описывающий ситуацию, когда в одних сервисах процесс уже зафиксирован на финальном этапе, а в других этот же процес пока что зафиксирован на промежуточном этапе.

Вернее, где вы ее применяете?

Мы нигде не применяем. Это естественные издержки микросервисовисной архитектуры, от которых не ути.

Транзакция выполняется последовательно, синхронно...

Причем тут синхронность? Во-первых безопасные этапы имеет смысл делать асинхронными, для ускорения процесса оплаты. Во-вторых синхронность не гарантирует молниеносности, между каждым атомарным шагом транзакции есть нехилиый такой латенси на публикацию в брокер или чтение из него.

... никакой отложенности здесь не должно быть. Если речь про что-то вроде DWH, тогда понятно

Задержка есть всегда, в 99.9% случаев это 3-5 секунды, но иногда в несколько суток.

Будет ли медленным Polling publisher? Смотря, что для вас медленно...

Если полить БД раз в секунду, то это + 1 секунда к тому латенси о котором я говорил выше. Если полить раз в 5 секунд, то это + 5 секунд к латенси. Если транзакция состоит из 5 атомарных шагов, то это +5 и +25 секунд соответственно. Как бы это не мало.

Насчет удаления из outbox, то мне кажется в варианте, когда вы забираете данные из журнала, нет смысла создавать outbox. Забирайте прямо из основной талицы, ориентирусь на какой-либо параметр: id, время обновления.

Почему это? Во-первых, это удобно - есть одна единственная таблица OUTBOX, у которой есть одно едиственное предназначение - хранить исходящие сообщения в едином формате. Во-вторых, настраивать `Transaction log tailing` на каждую таблицу по отдельности слишком геморройно, проще настроить чтение на одну единственную таблицу OUTBOX. В-третьих, полагаясь на табилцу OUTBOX мы лишаем разработчика возможности, что-то сломать, потому что разработчик не должен иметь прав на изменение таблицы OUTBOX. Если же чтение будет происходит из основных таблиц, то паттерн `Transaction log tailing` становится хрупким, т.к. неосторожная миграция меняющая структуру табицы его сломает. В-четвертых, всегда можно будет переключаться между обоими паттернами`Transaction log tailing` и `Polling publisher`в случае прозрения или разочарования в одном из подходов. В-пятых, вы лишаете разработчиков возможности изменить поведение САГИ, т.е. т.к. `Transaction log tailing` - это внешний независимый процесс со своей инкапсулированной логикой, то он будет читать из таблицы и публиковать в очередь, даже если команда разработки решила переписать бизнес-код и публиковать сообщение в другой момент. Нужно будет согласовывать действия сразу двух команд, это превратит процесс в ад.

Написано более трёх лет назад
Vitsliputsli @Vitsliputsli

ksimmi, я имел ввиду, что мне не очень понятна несогласованность сервисов на этапе завершения транзакции. Да, можно чтото пускать асинхронно, если это допустимо, но основные сервисы должны быть согласованы в момент завершения транзакции, несогласованы могут быть только второстепенные сервисы. Иначе мы теряем часть данных, или нет? Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?
По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала? По gtid? Как воркер определит откуда продожать чтение после рестарта? И самое интересное, как это читать многопоточно?
Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Написано более трёх лет назад
ksimmi @ksimmi Автор вопроса

Vitsliputsli,

... мне не очень понятна несогласованность сервисов на этапе завершения транзакции ... ... основные сервисы должны быть согласованы в момент завершения транзакции ...

После завершения транзакции данные, конечно согласованы, тут ключевое слово после. Отложенная согласованность возможна на этапе исполнения транзакции. Например, мы платим с карты за мобильную сязь. Тогда обычна ситуация, когда один сервис списал деньги с карты, пометил в своей БД операцию как успешно завершенную и опубликовал в очередь событие об успешном исполнении. Второй же сервис подписанный на эту очередь реагирует и пополняет баланс и тоже помеает транзакцию успешно завершенной, чем приводит нашу систему в полность согласованное состояние. Так вот ВСЕГДА существует момент, та самая задержка, когда один сервис опубликовал в очередь, а второй еще не успел его из очереди получить. БД обоих сервисов согласованы, у одного все хорошо, потому что он успешно провел транзакцию, а у второго все хорошо, потому что он еще и не начинал. Это и есть отложенная согласованность, точнее один из вариантов.

Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Нет, проверки идут первыми и как раз они распаралелены. После всех проверок начинаются операции движения денег, эти операции последовательны, как в описанном кейсе выше.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?

Я вас не понял тут. Как раз таки Kafka/Rabbit/Nats - это и есть polling publisher. На прошлом проекте Kafka, там сага могла 7-8 pub/sub сделать, латенси на каждый около 1.5 секунд. Платеж до клиента доходит в течении 10-12 секунд.

По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала?

Ну я в самом вопросе отписался, что `Transaction log tailing` для меня большая загадка. Но про то как данные забираются уже разобралсяи в вопросе также указал. Используя любой инструмент реализующий ETL-паттерн "Захват изменения данных" (Change Data Capture).

По gtid? Как воркер определит откуда продожать чтение после рестарта?

На сколько я понял главное удалять из OUTBOX уже прочитанные данные и все проблемы решатся. Воркер просто читает все что есть и удаляет прочитанное. Другое дело, что мне меньше всего понятно как произвести удаление. Об этом я также в вопросе написал.

И самое интересное, как это читать многопоточно?

Зачем?

Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Если я правильно понял книгу, то оба паттерна `Transaction log tailing` и `Polling publisher` предполагают удаление из OUTBOX прочитанных записей.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 91 просмотр
1

ответ
Yii

+3 ещё

Сложный
Конвертация видео с помощью FFMpeg в Yii2?
- 1 подписчик
- 30 мая
- 129 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 353 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 171 просмотр
2

ответа
Redis

+2 ещё

Простой
Выбор брокеров сообщений в зависимости от задачи?
- 1 подписчик
- 07 апр.
- 131 просмотр
1

ответ
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 333 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 350 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 802 просмотра
2

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 318 просмотров
1

ответ
Показать ещё Загружается…

ksimmi, я имел ввиду, что мне не очень понятна несогласованность сервисов на этапе завершения транзакции. Да, можно чтото пускать асинхронно, если это допустимо, но основные сервисы должны быть согласованы в момент завершения транзакции, несогласованы могут быть только второстепенные сервисы. Иначе мы теряем часть данных, или нет? Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?
По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала? По gtid? Как воркер определит откуда продожать чтение после рестарта? И самое интересное, как это читать многопоточно?
Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт