Версионирование данных в базе?

Question

Владимир Куц @fox_12

Расставляю биты, управляю заряженными частицами

Версионирование данных в базе?

Есть база с несколькими таблицами на сервере.
Есть база на неком клиенте.
На сервере данные время от времени меняются. Допустим - структура базы не меняется. Допустим что после каждого изменения мы инкрементируем версию данных.
Теперь некий клиент обращается через АПИ к базе, указывая свою версию, в ответ мы должны в АПИ отдать некий json, в котором мы указываем какие записи необходимо добавить/изменить/удалить для синхронизации данных между версией на сервере и версией клиента, затратив на это как можно меньше ресурсов и минимизировав число запросов и данных отсылаемых от сервера, так как клиенты - мобильные...
Казалось бы - задача типовая - но толком данных в сети по реализации не нахожу.
Пока добавил к таблице версию, и при каждом изменении добавляю данные с версией. Но данный костыль не видится особо эффективным. Допустим в таблице около миллиона записей, а в в следующей версии вносятся пару изменений - приходиться во-первых хранить дубль данных, а во-вторых - лопатить миллионы записей на предмет изменений между версиями.
Где можно найти информацию на данную тему? Возможно можно как-то использовать другие движки бесплатных баз данных под это дело? Возможно где-то есть готовая реализация?

Вопрос задан более трёх лет назад
2069 просмотров

11 комментариев

Подписаться 7 Простой 11 комментариев

Евгений Самсонов @bitniks

Первое, что приходит в голову, это хранить все изменения для каждой версии в отдельной таблице и отдавать клиенту список изменений с его версии по текущую. Клиенту нужно выполнить все изменения последовательно

Написано более трёх лет назад
Евгений Самсонов @bitniks

Иван, если так, то это проблема. Из вопроса показалось, что клиенты данные в своей бд не меняют

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

Евгений Самсонов, > Клиенту нужно выполнить все изменения последовательно
Как раз этого нужно избежать.
Допустим на версии 2 добавили миллион записей
на версии 3 этот миллион записей удалили, но добавили 2 новых записи

Клиенту должно прилететь в итоге что нужно добавить 2 новых записи, а не закачивать миллион записей, а затем в следующем изменении их удалять чтобы оставить 2 записи. Нужно как раз свести к минимуму количество информации передаваемой от сервера - этот ресурс как раз необходимо сэкономить.

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

Иван, а где можно глянуть подобную реализацию? Если на входе мне просто нужно указать номера версий, а получить в итоге - что удалить/что добавить/а что изменить в таблице данных для синхронизации.

Написано более трёх лет назад
Евгений Самсонов @bitniks

Владимир Куц, Тогда мержить изменения каждой записи и отдавать только те действия, которые актуальны. Если подумать, то, наверное, не так сложно это сделать

Написано более трёх лет назад
Zhainar @zhainar

Как я понимаю, клиенты и сервер могут менять одни те же данные. Если клиент меняет данные, то на сервере должны быть данные клиента. Если сервер меняет данные, то на клиенте должны быть эти данные. Так?

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

Zhainar, нет - клиент данные не меняет. Он только таким образом синхронизирует свою версию базы с базой сервера.

Написано более трёх лет назад
Zhainar @zhainar

Владимир Куц, тогда это похоже на репликацию, которую уверен можно настроить в любой базе с выбором нужных таблиц.

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

Zhainar,
тогда это похоже на репликацию

Не совсем. Нужно тянуть не историю, а разницу между состояниями таблиц произвольных версий

которую уверен можно настроить в любой базе с выбором нужных таблиц

Не совсем понятно как это сделать с БД на mysql/postgres и внешней произвольной структурой (в Json формате к примеру)

Написано более трёх лет назад
Zhainar @zhainar

Владимир Куц, варианты предложены ниже. Но какая суть данного действия? Неправильные вопросы ведут к неправильным ответам.

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

> Но какая суть данного действия
суть описана в вопросе - минимизация пересылаемых данных при синхронизации разнородных стационарной и мобильной баз.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

9 недель

Далее
Академия Эдюсон

SQL-разработчик: тариф Базовый

2 месяца

Далее
Учебный центр IBS

JVA-I-003 Работа с базами данных в Java

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

2 комментария

Владимир Куц @fox_12 Автор вопроса

Скачать 100 МБ с телефона сейчас не проблема

Проблема. Не везде 4G. Моб. клиент может находиться в зоне нестабильного приема 3G, а то и GPRS, в роуминге. По той же причине невозможна интенсивная работа с приложением в онлайн режиме.
Включить приложение в зоне нестабильного приема, получить пару-тройку коротких вчерашних-позавчерашних обновлений с БД чтобы как можно быстрее выйти в готовность к работе - далее интенсивная работа с данными оффлайн, и в итоге - короткий ответ серверу - основной режим работы.

При подключении клиент запрашивает обновление со временем последнего обновления и локальным временем (видел неправильно настроенные часы миллион раз)

Пока к такой схеме и склоняюсь, но поступаю проще - хранение номера версии данных. Клиент знает какая последняя версия у него, и делает запрос с номером свой версии. Сервер в ответ дает данные с версиями выше.

Для работы в обе стороны нужен полный лог операций и система разрешения конфликтов

Благо такое не требуется. Пока. Но если существуют такие решения - было бы неплохо применить и их с учетом на будущее.

Для обычных баз данных в режиме совместной работы настраивайте мастер-мастер репликацию с транзакциями

Из-за разнородности хранения данных на сервере и клиенте такое неприменимо, к сожалению.

Для мобильных приложений используйте режим тонкого клиента.

Тоже не подойдет из-за проблем описанных выше.

Написано более трёх лет назад
Philipp @zoonman

Владимир Куц, вариант с версией не самый лучший, т.к. вам нужно заботиться о версионировании и т.д. Гораздо проще использовать шаблон с updatedAt полем.

Написано более трёх лет назад

2 комментария

Комментировать

4 комментария

Владимир Куц @fox_12 Автор вопроса

На мобильном устройстве данные хранятся в специфическом формате. Для простоты примем что хранится некая структура в json собранная из актуальных данных.
Так вот - родные механизмы репликации mysql/postgresql позволяют настаивать репликацию с некой внешней структурой json c протоколами на базе json а лучше protobuf?
Если да - ткните в примеры успешной реализации. Я к примеру такое не нашел, и не думаю что репликация мне поможет.

Написано более трёх лет назад
Владимир @MechanID

Владимир Куц, Просто исходя из тегов и прочитав ваш вопрос я предположил что на клиенте у вас тоже база такаяже как и на мастере, прошу прощения что не так понял. Да вы правы, готовых решений таких нет.
По собственно самой репликации (как делал бы я) - самый просто вариант реализации - как в mysql. Все изменеия пишутся в лог, клиент приходит сверяет свой лог и лог изменений мастер сервера, поулчает свежий кусок лога и применяет к своей базе.
Для вашего случая я бы сделал какуюто обвертку к mysql bin логу, пришол запрос по апи с указанием даты последних изменений на клиенте, апи сервис вычитал нужную часть бинлога mysql, сконвертирывал его в формат приемлемый для клиента и отдал ему. Клиент получив его принеяет лог изменений к своей базе.

Написано более трёх лет назад
Владимир Куц @fox_12 Автор вопроса

Владимир, да - это я в описании упустил )
Так да - были бы одинаковые движки на сторонах - проблем с репликацией не было.
По логу репликаций тоже непросто. В базу версии n+1 может добавиться скажем - тысячу записей, а в версии n+2 эту тысячу записей могут удалить и добавить пару записей.
Вот нужно как-то избежать тянуть инфу об этой тысяче записей клиенту, запрашивающему обновлении с версии n до актуальной, указав просто что нужно добавить пару записей....

Написано более трёх лет назад
Владимир @MechanID

Владимир Куц, Если так важно минимизировать обмен данными между сервером и клиентом то придется чтото изобретать, например выгрузку из mysql в json делать по запросу клиента и после отдачи клиенту хранить на сервере (таким образом сервер будет знать какая версия данных у клиента) когда этот же клиент придет второй раз он сообщит свою версию данных, сервер сделает свежий дамп в json, сделает дифф между текущей и старой версией которая осталась с прошлого раза, и отправит его (дифф) клиенту, и опять сохранить вместо предыдущей. Правда если клиентов много и база большая то хранить все это будет оч неудобно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 197 просмотров
4

ответа
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент. 2025
- 490 просмотров
1

ответ
API

+1 ещё

Простой
Точь в точь ли маппятся поля json-сущности на поля в таблицах базы данных?
- 1 подписчик
- более года назад
- 260 просмотров
2

ответа
Проектирование баз данных

Простой
Правильно ли построена ER диаграмма?
- 1 подписчик
- более года назад
- 299 просмотров
1

ответ
Информационная безопасность

+2 ещё

Простой
Данная схема реализации базы данных подходит под рамки 152-ФЗ?
- 2 подписчика
- более года назад
- 592 просмотра
2

ответа
PostgreSQL

+1 ещё

Простой
Проектирование БД: чем сейчас люди пользуются?
- 1 подписчик
- более года назад
- 509 просмотров
3

ответа
Проектирование баз данных

Простой
Как лучше сделать базу данных?
- 1 подписчик
- более года назад
- 411 просмотров
4

ответа
Проектирование баз данных

Средний
Как спроектировать dwh звезда?
- 1 подписчик
- более года назад
- 91 просмотр
1

ответ
Проектирование баз данных

Средний
Выбор между SQL и NoSQL документооринтированной базой данных?
- 2 подписчика
- более года назад
- 1016 просмотров
2

ответа
Проектирование баз данных

Простой
Как лучше обновлять счётчик записей?
- 1 подписчик
- более года назад
- 156 просмотров
3

ответа
Показать ещё Загружается…

Первое, что приходит в голову, это хранить все изменения для каждой версии в отдельной таблице и отдавать клиенту список изменений с его версии по текущую. Клиенту нужно выполнить все изменения последовательно
Иван, если так, то это проблема. Из вопроса показалось, что клиенты данные в своей бд не меняют
Евгений Самсонов, > Клиенту нужно выполнить все изменения последовательно
Как раз этого нужно избежать.
Допустим на версии 2 добавили миллион записей
на версии 3 этот миллион записей удалили, но добавили 2 новых записи

Клиенту должно прилететь в итоге что нужно добавить 2 новых записи, а не закачивать миллион записей, а затем в следующем изменении их удалять чтобы оставить 2 записи. Нужно как раз свести к минимуму количество информации передаваемой от сервера - этот ресурс как раз необходимо сэкономить.
Иван, а где можно глянуть подобную реализацию? Если на входе мне просто нужно указать номера версий, а получить в итоге - что удалить/что добавить/а что изменить в таблице данных для синхронизации.
Владимир Куц, Тогда мержить изменения каждой записи и отдавать только те действия, которые актуальны. Если подумать, то, наверное, не так сложно это сделать
Как я понимаю, клиенты и сервер могут менять одни те же данные. Если клиент меняет данные, то на сервере должны быть данные клиента. Если сервер меняет данные, то на клиенте должны быть эти данные. Так?
Zhainar, нет - клиент данные не меняет. Он только таким образом синхронизирует свою версию базы с базой сервера.
Владимир Куц, тогда это похоже на репликацию, которую уверен можно настроить в любой базе с выбором нужных таблиц.
Zhainar,
тогда это похоже на репликацию

Не совсем. Нужно тянуть не историю, а разницу между состояниями таблиц произвольных версий

которую уверен можно настроить в любой базе с выбором нужных таблиц

Не совсем понятно как это сделать с БД на mysql/postgres и внешней произвольной структурой (в Json формате к примеру)
Владимир Куц, варианты предложены ниже. Но какая суть данного действия? Неправильные вопросы ведут к неправильным ответам.
> Но какая суть данного действия
суть описана в вопросе - минимизация пересылаемых данных при синхронизации разнородных стационарной и мобильной баз.

Answer 1 · 2019-05-28 15:16:11

1) клиент хранит дату последней репликации с сервером.
2) сервер при каждом обновлении строки обновляет столбец changetAt у строки.
3) клиент при подключении отправляет на сервер дату своей последней репликации с сервером.
4) сервер делает выборку по дате и отправляет id строк клиенту
5) клиент смотрит какие id ему нужны и делает запрос на их обновление

Answer 2 · 2019-05-29 03:02:44

Если у вас в таблице 500к записей, то нет абсолютно никакого смысла скачивать ее всю на телефон за исключением одной ситуации - режима работы оффлайн. В данном случае просто делается актуальный слепок, архивируется и отправляется к клиенту. Скачать 100 МБ с телефона сейчас не проблема. При наличии интернета гораздо проще делать запросы через API.

Если подобный вариант не устраивает, то делается все очень просто - на сервере данные никогда не удаляются, но хранится признак их удаления. Помимо этого признака хранится признак последнего обновления записи.
На клиенте хранятся специальные мета-данные с информацией о последнем обновлении (timestamp).
При подключении клиент запрашивает обновление со временем последнего обновления и локальным временем (видел неправильно настроенные часы миллион раз), сервер отвечает обновленными данными. Для сохранения трафика данные приходят в сжатом формате, а удаленные записи передаются отдельным фрагментом с минимальной идентфицирующей строки информацией (поля: первичный ключ или уникальный индекс). Это обеспечивает минимальный объем трафика, но работает только в одну сторону.

Для работы в обе стороны нужен полный лог операций и система разрешения конфликтов. В целом решение так себе, для баз работающих с большим рассинхроном или высокой частотой обнолений, не решается (OT не спасет) без участия человека.

Для обычных баз данных в режиме совместной работы настраивайте мастер-мастер репликацию с транзакциями. Для мобильных приложений используйте режим тонкого клиента.

Answer 3 · 2019-05-28 13:00:01

Записывайте не версию, а время изменения состояния записи.
И будет достаточно получить все изменения которые произошли после указаного времени.

Answer 4 · 2019-05-28 14:42:38

Если вам нужно прям версионирование - смотрите SQL:2011 и его реализации под нужные вам РСУБД.

Если вам нужна всё-таки репликация, причём между разношёрстными базами и участниками процесса - посмотрите на www.symmetricds.org

What are some examples of using database replication?

Remote offices replicated to a central office
Cross platform database replication between different databases
Replication between on-premise databases and cloud databases
Consolidation of multiple databases into a data warehouse
Regional database replication to improve access times for local users
High availability of a database using a primary and secondary instance

Насчёт конфликтов и "гита для табличных записей" - тут действительно всё непросто, я вот взялся писать диссер на эту тему..

Answer 5 · 2019-05-28 19:12:30

Вы изучили родные механизмы репликации в mysql (там попроще) а потом и в postgresql ? они вам не подходят ? есл да то опишите почему ?

Версионирование данных в базе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт