Как лучше синхронизировать 20 бд?

Question

Andrey Kuzin @Bentax

PM at AllUnic

Как лучше синхронизировать 20 бд?

Есть около 20 бд (sql, pg) с данными о заказах клиентов (продажах). Каждую секунду появляется новый заказ в каждой бд. Требуется собирать информацию для расчёта всех продаж на сервер (21-й). Перекачка по крону напрямую из бд в бд. Алгоритм понятен, используем timestamp, проверяемся, обновляемся. НО! При перекачке возможны потери информации. Надо проверять, все ли данные скачаны. В случае потери данных присылать сообщение. Вопрос, может через промежуточный файл проверку устраивать? Даст ли это скорость/надёжность? Как грамотно построить архитектуру?

Вопрос задан более трёх лет назад
252 просмотра

4 комментария

Подписаться 2 Простой 4 комментария

Andrey Kuzin @Bentax Автор вопроса

тупо теряется)) крон не сработал, сервер не доступен был, связь оборвалась...

Написано более трёх лет назад
d'Ivan @2ord

Есть СУБД с поддержкой автоматической репликации: Apache CouchDB и пр.

Написано более трёх лет назад
Andrey Kuzin @Bentax Автор вопроса

Dr. Bacon, да именно так, sql запросы. самому такая схема не нравится, вот и спрашиваю совет

Написано более трёх лет назад
Andrey Kuzin @Bentax Автор вопроса

Вы, видимо с нагруженными системами не работали, от того и не представляете, как могут теряться данные в момент блокировки на запись или на чтение например...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик расширенный

14 месяцев

Далее
Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Яндекс Практикум

Мидл Python-разработчик

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 260 просмотров
4

ответа
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 101 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 204 просмотра
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 138 просмотров
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 124 просмотра
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 177 просмотров
4

ответа
PostgreSQL

Средний
VACUUM в PostgreSQL 15 уже несколько суток в фазе vacuuming indexes что можно сделать?
- 6 подписчиков
- 27 авг.
- 901 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Почему увеличилась генерация WAL-сегментов?
- 1 подписчик
- 21 авг.
- 176 просмотров
1

ответ
SQL

+1 ещё

Простой
Проверка связывания таблиц, как проверить?
- 2 подписчика
- 20 авг.
- 311 просмотров
0

ответов
PostgreSQL

Простой
Как подсчитать данные для каждого узла(включая вложения) дерева?
- 1 подписчик
- 15 авг.
- 82 просмотра
0

ответов
Показать ещё Загружается…

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Senior DevOps Engineer / Инженер по инфраструктуре / SRE

Hunt Rangers • Москва

от 440 000 ₽

тупо теряется)) крон не сработал, сервер не доступен был, связь оборвалась...
Есть СУБД с поддержкой автоматической репликации: Apache CouchDB и пр.
Dr. Bacon, да именно так, sql запросы. самому такая схема не нравится, вот и спрашиваю совет
Вы, видимо с нагруженными системами не работали, от того и не представляете, как могут теряться данные в момент блокировки на запись или на чтение например...

Answer 1 · 2021-01-08 10:44:24

Я бы настроил logical replication нужной таблицы (таблиц)

Только таблицы в DB1-21 придется положить в разные схемы, т.к. постгрес не умеет реплицировать в таблицу с другим именем. Т.е получится что-то типа:

DB1 (schema1.table) -> DB21 (schema1.table)
DB2 (schema2.table) -> DB21 (schema2.table)
DB3 (schema2.table) -> DB21 (schema3.table)
...

Дальше уже объединяйте данные в DB21 из schemaN.table как вам надо. Можно (вроде... честно говоря не проверял) сделать таблицы schemaN.table партициями общей таблицы, например. Или организовать materialized view.

Также можно подключить таблицы с DB1-20 через foreign data wrapper и перекачивать с них данные (тут уже ваша задача написать скрипт/запрос так, чтобы ничего не пропадало и не тормозило).

Это, конечно, все при условии, что у вас базы могут коннектиться друг к другу.

Answer 2 · 2021-01-08 11:09:21

Архитектура синхронизации данных на самом деле содержится в структурах данных передовых создателей СУБД. Прекрасный пример для подражания - SQL Server.
У него, начиная с версии 2008 или 2012 есть опция обратной проверки странички файла хранящих данные - сумма кратно усеченных значений из 8 полей. Если функция и значение разнятся, страничка объявляется испорченной, после чего включается механизм подгружающий копию той же странички с машины, где эта страничка "здоровая".
Как разбить данные в таблице на блоки / странички, какая функция лучше для подсчета и как осуществить коммуникации между базами это наверное параметры, которые Вы можете подсказать. Если Вас заинтересовал этот подход, пожалуйста напишите, чтобы сделать полноценное решение.

Answer 3 · 2021-01-08 13:24:07

Есть вариант использовать Kafka. В каждой из 20 баз данных устанавливается плагин который публикует все измения данных в Kafka. В Kafka, используя KSQL потоки данных объединяются в один и уже объединенный результирующий поток пишется в результирующую базу.

Как лучше синхронизировать 20 бд?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт