Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Question

ksimmi @ksimmi

Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Всем привет.

В последние почти 5 лет, довелось поучавствовать в разных ролях над тремя финтех-проектами с микросервисной архитектурой. Работая над последним из них я прочел книгу «Микросервисы. Паттерны разработки и рефакторинга» за авторством Криса Ричардсона и почерпнул оттуда желание реализации транзакционной очереди.

Вопросы:

1 Я уже ознакомился с обеими (`Transaction log tailing` и `Polling publisher`) версиями реализации предложенными Крисом Ричардсоном с использованием таблицы `OUTBOX`. Какие еще альтернативные реализации возможны?
2 Не будет ли это все слишком медленно?
3 Какие реализации/советы возможнны для стека: python, postgres, nats?
4 Я как-то давно видел плагины для postgres с прямой интеграцией толи с Kafka, толи с Rabbit, возможно найду и для nats. Хорошая ли это идея публиковать события в очередь сразу из БД? Я вижу минус в том, что не для каждой БД возможно найти такое решение. У меня в проекте не только postgres, есть и elastic, но пока что в сервисах с ним подобная транзакционность не очень нужна.

UPD
5 Если с паттерном `Polling publisher` все легко и понятно, то паттерн `Transaction log tailing` у меня вызывал и до сих пор вызывает вопросы. Разобравшись, что в случае с postgres речь идет о фоновом чтении из WAL и обработки прочтенных данных я начал искать готовые решения с этим связанные. Казалось что любой информации, кроме теоретической нет, но мне стало часто попадаться на глаза упоминание ETL-паттерна "Захват изменения данных" (Change Data Capture). Я нашел несколько готовых опенсорсных решений (Debezium, Wso2), которые реализуют этот паттерн и с одной стороны могут собирать данные из WAL, а с другой - передавать их в nats/kafka и т.д. Мне кажется, что это то что нужно. Теперь сам вопрос: как удалять обработанные данные из таблицы `OUTBOX`, после того как они будут доставлены в брокер CDC-инструментом?

Ниже описание почему я хочу попробовать...

Так или иначе мы во всех проектах использовали паттерны "Повествования" (Saga) и "Порождение событий" (Event Sourcing), которые в процессе своего исполнения вводят всю систему в состояние "отложенной согласованности". Это состояние когда каждый сервис согласован сам по себе, но в масштабах всей системы в части сервисов операция уже исполнена, а в другой - еще нет.

По большому счету это нормально и совершенно не страшно, потому что "в идеальном мире" операция в конечном итоге придет в согласованное состояние если не было ошибок. Если же ошибки возникли, то запустятся компенсируюущие транзакции, которые также вернут систему в согласованное состояние.

Однако, все три проекта не редко впадали в ситуацию, когда они не могли выйти из состостояния состояния отложенной соглассованности сами. Другими словами, иногда для того, чтобы та или иная операция окончательно выполнилась или откатилассь назад, ее приходилось "пнуть". Пинал ее либо автоматизированный механизм `health-check-poller`, который искал такие зависшие операции, либо сотрудник второй линии поддержки. после чего процесс продолжался и приводил транзакцию в согласованное состояние.

Почти всегда проблема была связана с тем, что один сервис обработал свою часть саги, внес правки в БД и не смог уведомить об этом остальную систему, т.е. не опубликовал событие в очередь. Крис Ричардсон утверждает, что оба паттерна "Повествования" и "Порождение событий" должны быть реализованы через транзакционные очереди, тем самым гарантируя, что сервис возмет сообщение из очереди брокера и либо исполнит бизнес логику, информирует остальных участников и пометит сообщение как отработанное удалив его из очереди брокера, либо не сделает ни того, ни другого и вернет сообщение в очередь брокера.

Теперь я убежден, что наличие транзакционной очереди должно сильно увеличить надежность системы и снизить затраты на поиски проблем и поддержку.

Спасибо!

Вопрос задан более двух лет назад
733 просмотра

4 комментария

Подписаться 8 Средний 4 комментария

Vitsliputsli @Vitsliputsli

Почему отложенная согласованность? Вернее, где вы ее применяете? Транзакция выполняется последовательно, синхронно, никакой отложенности здесь не должно быть. Если речь про что-то вроде DWH, тогда понятно.
Polling publisher наиболее распространенное решение, по-моему, надежное, и более простое по сравнению Transaction log tailing (быть может потому, что я видел только реализации по 1 сценарию).
Будет ли медленным Polling publisher? Смотря, что для вас медленно, в принципе стандартные потери на СУБД, пересылку по-сети и прочее.
Насчет публикации прямо из СУБД, не думаю, что это хорошее решение, если у вас нагруженная система, СУБД всегда узкое место, не нужно заставлять ее делать что-то еще, кроме того что она и так делает хорошо.
Насчет удаления из outbox, то мне кажется в варианте, когда вы забираете данные из журнала, нет смысла создавать outbox. Забирайте прямо из основной талицы, ориентирусь на какой-либо параметр: id, время обновления. Но нужно смотреть применимость в конкретной ситуации. Не знаю как работать с журналом, но думаю там есть встроенные идентификаторы транзакций, какой-нибудь GTID, и можно ориентироваться на него.

Написано более двух лет назад
ksimmi @ksimmi Автор вопроса

Vitsliputsli,

Почему отложенная согласованность?

Потому что это термин ёмко описывающий ситуацию, когда в одних сервисах процесс уже зафиксирован на финальном этапе, а в других этот же процес пока что зафиксирован на промежуточном этапе.

Вернее, где вы ее применяете?

Мы нигде не применяем. Это естественные издержки микросервисовисной архитектуры, от которых не ути.

Транзакция выполняется последовательно, синхронно...

Причем тут синхронность? Во-первых безопасные этапы имеет смысл делать асинхронными, для ускорения процесса оплаты. Во-вторых синхронность не гарантирует молниеносности, между каждым атомарным шагом транзакции есть нехилиый такой латенси на публикацию в брокер или чтение из него.

... никакой отложенности здесь не должно быть. Если речь про что-то вроде DWH, тогда понятно

Задержка есть всегда, в 99.9% случаев это 3-5 секунды, но иногда в несколько суток.

Будет ли медленным Polling publisher? Смотря, что для вас медленно...

Если полить БД раз в секунду, то это + 1 секунда к тому латенси о котором я говорил выше. Если полить раз в 5 секунд, то это + 5 секунд к латенси. Если транзакция состоит из 5 атомарных шагов, то это +5 и +25 секунд соответственно. Как бы это не мало.

Насчет удаления из outbox, то мне кажется в варианте, когда вы забираете данные из журнала, нет смысла создавать outbox. Забирайте прямо из основной талицы, ориентирусь на какой-либо параметр: id, время обновления.

Почему это? Во-первых, это удобно - есть одна единственная таблица OUTBOX, у которой есть одно едиственное предназначение - хранить исходящие сообщения в едином формате. Во-вторых, настраивать `Transaction log tailing` на каждую таблицу по отдельности слишком геморройно, проще настроить чтение на одну единственную таблицу OUTBOX. В-третьих, полагаясь на табилцу OUTBOX мы лишаем разработчика возможности, что-то сломать, потому что разработчик не должен иметь прав на изменение таблицы OUTBOX. Если же чтение будет происходит из основных таблиц, то паттерн `Transaction log tailing` становится хрупким, т.к. неосторожная миграция меняющая структуру табицы его сломает. В-четвертых, всегда можно будет переключаться между обоими паттернами`Transaction log tailing` и `Polling publisher`в случае прозрения или разочарования в одном из подходов. В-пятых, вы лишаете разработчиков возможности изменить поведение САГИ, т.е. т.к. `Transaction log tailing` - это внешний независимый процесс со своей инкапсулированной логикой, то он будет читать из таблицы и публиковать в очередь, даже если команда разработки решила переписать бизнес-код и публиковать сообщение в другой момент. Нужно будет согласовывать действия сразу двух команд, это превратит процесс в ад.

Написано более двух лет назад
Vitsliputsli @Vitsliputsli

ksimmi, я имел ввиду, что мне не очень понятна несогласованность сервисов на этапе завершения транзакции. Да, можно чтото пускать асинхронно, если это допустимо, но основные сервисы должны быть согласованы в момент завершения транзакции, несогласованы могут быть только второстепенные сервисы. Иначе мы теряем часть данных, или нет? Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?
По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала? По gtid? Как воркер определит откуда продожать чтение после рестарта? И самое интересное, как это читать многопоточно?
Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Написано более двух лет назад
ksimmi @ksimmi Автор вопроса

Vitsliputsli,

... мне не очень понятна несогласованность сервисов на этапе завершения транзакции ... ... основные сервисы должны быть согласованы в момент завершения транзакции ...

После завершения транзакции данные, конечно согласованы, тут ключевое слово после. Отложенная согласованность возможна на этапе исполнения транзакции. Например, мы платим с карты за мобильную сязь. Тогда обычна ситуация, когда один сервис списал деньги с карты, пометил в своей БД операцию как успешно завершенную и опубликовал в очередь событие об успешном исполнении. Второй же сервис подписанный на эту очередь реагирует и пополняет баланс и тоже помеает транзакцию успешно завершенной, чем приводит нашу систему в полность согласованное состояние. Так вот ВСЕГДА существует момент, та самая задержка, когда один сервис опубликовал в очередь, а второй еще не успел его из очереди получить. БД обоих сервисов согласованы, у одного все хорошо, потому что он успешно провел транзакцию, а у второго все хорошо, потому что он еще и не начинал. Это и есть отложенная согласованность, точнее один из вариантов.

Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Нет, проверки идут первыми и как раз они распаралелены. После всех проверок начинаются операции движения денег, эти операции последовательны, как в описанном кейсе выше.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?

Я вас не понял тут. Как раз таки Kafka/Rabbit/Nats - это и есть polling publisher. На прошлом проекте Kafka, там сага могла 7-8 pub/sub сделать, латенси на каждый около 1.5 секунд. Платеж до клиента доходит в течении 10-12 секунд.

По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала?

Ну я в самом вопросе отписался, что `Transaction log tailing` для меня большая загадка. Но про то как данные забираются уже разобралсяи в вопросе также указал. Используя любой инструмент реализующий ETL-паттерн "Захват изменения данных" (Change Data Capture).

По gtid? Как воркер определит откуда продожать чтение после рестарта?

На сколько я понял главное удалять из OUTBOX уже прочитанные данные и все проблемы решатся. Воркер просто читает все что есть и удаляет прочитанное. Другое дело, что мне меньше всего понятно как произвести удаление. Об этом я также в вопросе написал.

И самое интересное, как это читать многопоточно?

Зачем?

Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Если я правильно понял книгу, то оба паттерна `Transaction log tailing` и `Polling publisher` предполагают удаление из OUTBOX прочитанных записей.

Написано более двух лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C++

+1 ещё

Средний
Dbeaver C++ connection error?
- 1 подписчик
- 12 часов назад
- 47 просмотров
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 77 просмотров
1

ответ
PostgreSQL

Простой
Нужен ли первичный ключ в таблицах PostgreSQL?
- 1 подписчик
- 23 апр.
- 150 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Как добавить отношения «многие-ко-многим» между таблицами из разных баз данных?
- 1 подписчик
- 22 апр.
- 135 просмотров
4

ответа
PostgreSQL

+1 ещё

Простой
Как исправить неправильное отображение данных в csv после экспорта?
- 1 подписчик
- 17 апр.
- 107 просмотров
1

ответ
Java

+3 ещё

Средний
Пытаюсь подключиться к postgresql 16 через docker-compose, использую spring-boot 3.2.4, что не так?
- 1 подписчик
- 17 апр.
- 203 просмотра
3

ответа
PostgreSQL

+2 ещё

Простой
Где искать рекомендуемые настройки SSL-аутентификации для Docker-образа Posgres?
- 1 подписчик
- 17 апр.
- 65 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как поправить язык в SQL Shell (psql)?
- 1 подписчик
- 14 апр.
- 98 просмотров
1

ответ
Python

+1 ещё

Простой
Как оптимизировать запрос?
- 1 подписчик
- 13 апр.
- 146 просмотров
2

ответа
PostgreSQL

Простой
Как взять значение из одной таблицы и прибавить к значению другой таблицы?
- 1 подписчик
- 12 апр.
- 81 просмотр
1

ответ
Показать ещё Загружается…

Разработчик баз данных PostgreSQL

Объединенные системы управления транспортом • Москва

До 220 000 ₽

Администратор PostgreSQL

Гринатом

До 200 000 ₽

DBA / Администратор баз данных PostgreSQL

СберТех • Москва

от 320 000 ₽

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Доработать и интегрировать модуль на WordPress

26 апр. 2024, в 19:53

5000 руб./за проект

ksimmi, я имел ввиду, что мне не очень понятна несогласованность сервисов на этапе завершения транзакции. Да, можно чтото пускать асинхронно, если это допустимо, но основные сервисы должны быть согласованы в момент завершения транзакции, несогласованы могут быть только второстепенные сервисы. Иначе мы теряем часть данных, или нет? Для меня это звучит, как, мы подтвердили клиенту что отправили деньги, а в это время все еще идет проверка возможно ли это.

Если 1 транзакция будет 5 раз прогонят чтото через polling publisher - это будет гарантировано медленно. Но зачем? У вас же есть (или будет) Kafka/Rabbit/Nats?
По поводу OUTBOX в Transaction log tailing, согласен, это лучшее решение. Но остаются те же вопросы, не смотрели, как данные забирают из журнала? По gtid? Как воркер определит откуда продожать чтение после рестарта? И самое интересное, как это читать многопоточно?
Если OUTBOX неизменен, то как вы определяете, какая строка обработана, а какая еще нет, какие записи можно чистить? Тоже по gtid?

Transactional messaging. Какие существуют реализации транзакционных очередей сообщений?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт