Вопрос о терминах. Есть набор БД, с каждой из которых можно работать отдельно либо со всеми сразу. Как правильно называется такая система?

Question

Алексей Дещеревский @adeshere

РАН, Фортран, временные ряды

Базы данных

Вопрос о терминах. Есть набор БД, с каждой из которых можно работать отдельно либо со всеми сразу. Как правильно называется такая система?

Добрый день!
Сначала опишу ситуацию. У нас есть довольно много баз данных с временными рядами полевых наблюдений. Все эти БД работают под управлением одной и той же самописной СУБД, которая обеспечивает интерфейс для выполнения стандартных (и не очень стандартных) операций с рядами данных и их фрагментами.
Раньше все это работало локально. В каждой лаборатории (научной группе) была своя собственная БД, которая регулярно пополнялась данными наблюдений. А при необходимости хозяин (автор) БД как-то скидывал копии своей "мастер-базы" коллегам для работы с этими данными.

Но недавно мы обнаружили, что если такую базу (по сути - каталог с файлами БД) разместить в облаке, а именно, на Я-диске, то возникает новая ситуация. Любой юзер, у которого установлен клиент Я-диска и есть доступ этому облачному каталогу, может включить синхронизацию этой БД на свой локальный комп. После чего можно запустить свой экземпляр СУБД (это просто набор exe-шников на локальном компе) и подключиться к "чужой" БД: вынуть оттуда нужные данные, и т.д. Процессы синхронизации базы на разных компах происходят

почти незаметно для юзера

на самом деле из-за задержек синхронизации у нас иногда возникают некоторые проблемы, которые СУБД не может предотвратить, а только "расхлебывает последствия". Но такие случаи довольно редки, так как количество пользователей у нас небольшое, и вероятность строго одновременного подключения двух юзеров к одной и той же БД очень маленькая. А при не-одновременном подключении все обрабатывается корректно

В общем, на практике все выглядит так, что теперь любой юзер потенциально может работать с любой из "частных" БД, включенных в эту систему. Однако это нельзя назвать единой БД в полноценном смысле этого слова, так как

каждая локальная БД ничего не знает про остальные

То есть, ничего подобного на иерархическую или сетевую структуру баз у нас нет. Если юзер хочет добавить в свое рабочее пространство данные из другой БД, то по команде "подключиться к другой БД" он видит не список баз данных, входящих в систему, а список тех каталогов, к которым у него есть доступ. Если он знает, в каком каталоге лежит нужная ему БД, то он может туда зайти и к этой БД подключиться. Но если не знает - то найти нужную БД в принципе невозможно. Разве что заходя поочередно во все доступные каталоги с разными базами и пытаясь угадать правильный по названию каталога. А если у него нет доступа к какому-то каталогу, то он даже его название не увидит

Короче говоря, работать-то все это работает, чем мы уже почти год пользуемся. А проблема в том, что у нас научный институт, и нам теперь надо как-то все это описать в годовом отчете. В

плановом задании

это такие обещалки, которые надо отправить начальникам, чтобы выиграть грант или утвердить тему

мы называли такую систему совместного хранения и использования наблюдений "распределенная база данных". Не знаю, насколько это правильный термин, но он хотя бы дает намек на направление движухи. Но... теперь нам надо описать все это в отчете подробнее. И вот тут-то к нам и подкрался незаметно известный зверек. Если все это вместе называется базой данных (что вроде бы логично?), и каждая отдельная "личная" (лабораторная) БД тоже называется "базой данных" (как мы всегда раньше делали и за многие десятилетия уже привыкли), то возникает путаница. Как БД может быть частью БД? Это ведь только в теории множеств нормально, а в других контекстах почти аморалка... А отчет пишется для специалистов совсем в другой сфере, которые про теорию множеств, вероятно, не слышали ничего...
А как тогда?
БД и суб-базы?
Или БД и ее фрагменты? (но каждый из которых - это абсолютно самостоятельная БД)?
Или распределенная БД, состоящая из "частных" (локальных?) баз?
Или БД, состоящая из "малых" баз? (Но "малый" намекает на размер, а он бывает совсем не маленький)
Все эти (и многие другие) варианты не нравятся, так как для нашего рабоче-крестьянского уха получается непонятно и только сбивает с толку.

Наверно, в мире настоящих БД существует какая-то общепринятая терминология для описания таких ситуаций? Можете что-то посоветовать людям, которые уже 40 лет пишут и довольно успешно используют собственную велосипедную СУБД, но за все это время так и не разобрались с терминологией?

Вопрос задан более двух лет назад
1709 просмотров

8 комментариев

Подписаться 4 Простой 8 комментариев

# @mindtester

возможно вам сюда инструменты агрегирования баз данных или сюда распределенные базы данных

Написано более двух лет назад
Алексей Дещеревский @adeshere Автор вопроса

возможно вам сюда инструменты агрегирования баз данных или сюда распределенные базы данных

mindtester, спасибо за совет. Ссылки, конечно, полезные... но я не смог их "раскрутить" до решения.
Например, когда Вы едете в отпуск, то смотрите расписание поездов и полетов, выбираете рейсы, бронируете билеты, заказываете такси. Но можно назвать сам этот процесс покупки билетов агрегированием БД Экспресс, Леонардо и Яндекс-такси? Имхо, как-то не очень... Хотя все данные из них и правда используются совместно в какой-то момент. Вот и у нас то же самое: мы используем данные из разных баз в ходе решения какой-то задачи. Но эта задача больше напоминает не построение какой-то сводной таблицы (отчета), а сборку машинки из железячек и винтиков. Наши БД - это ящички с разными деталями, винтами и гайками. Когда я собираю машинку, то заглядываю в разные ящички, чтобы найти подходящий болтик/детальку. Но сами по себе эти ящики между собой не связаны абсолютно никак. Все, что у них есть общего - что я могу до любого из них дотянуться одной и той же рукой (читай, СУБД).
Что же касается второй ссылки, то она лишь подкрепила мою уверенность, что наша система не является распределенной БД в общепринятом понимании, т.к. у нее отсутствуют некоторые важные функции. И, значит, называть ее нужно не так.
НО КАК ????

Написано более двух лет назад
# @mindtester

Алексей Дещеревский, один из самых популярных инструментов в крупных проектах https://ru.wikipedia.org/wiki/Hadoop

Написано более двух лет назад
Алексей Дещеревский @adeshere Автор вопроса

один из самых популярных инструментов в крупных проектах https://ru.wikipedia.org/wiki/Hadoop

Не, у нас гораздо более ограниченная по функционалу система. К этому семейству она точно не относится и соответствующая терминология только запутает. У нас каждый юзер де-факто работает на своем локальном компе, в личном рабочем пространстве, и преимущественно со своей личной БД. Все дополнительные возможности (по сравнению с ПК без сети) заключаются в том, что он может по мере необходимости "полупрозрачно" подтягивать фрагменты данных из чужих баз. Ну или записывать туда что-то, но это бывает нужно гораздо реже.

В общем, у нас получилось по классике: "...не мышонок, не лягушка, А неведома зверюшка». Которая как-то работает и со своими задачами в общем справляется.

Но вот как все это назвать?!

Написано более двух лет назад
Дмитрий @Compolomus

Я бы назвал кластер баз

Написано более двух лет назад
d'Ivan @2ord

Вы создали иерархию независимых реплик и она никак не контролируется мастер-узлом. В итоге у вас имеется множество версий, прямо как в биологии, где каждый организм может создать свой подвид, который наделён новыми свойствами.

Дмитрий,

Я бы назвал кластер баз
кластер это про согласованность данных, а здесь не тот случай

Написано более двух лет назад
Алексей Дещеревский @adeshere Автор вопроса

Вы создали иерархию независимых реплик и она никак не контролируется мастер-узлом.

Не совсем так. При такой архитектуре технически у нас вообще нет понятия мастер-базы (узла): все реплики равноправны. Но, в теории, они не должны расходиться между собой, так как на всех локальных компах клиент Я-диска запускается при входе в систему. Поэтому базы на разных компах, опять-таки в теории,
всегда синхронизированы друг с другом.
Да, Яндекс-диск - это сильно не идеальная среда для этого. Но мы его используем в силу простоты и дешевизны. У нас ведь нагрузка ничтожная: количество пользователей у каждой БД - единицы.

Что же касается мастер-базы, то по факту новые данные вводит обычно тот, кто их получает. А это один человек (одна локальная группа людей). То есть, проблема "мастера" решается не на техническом уровне, а на человеческом.
На самом деле "расхождение баз" в такой архитектуре возможно, но для этого нужно совпадение трех довольно редких условий:
1) два юзера подключились к одной базе одновременно (с разницей не больше нескольких секунд, т.к. небольшие файлы Я-диск обычно синхронизирует очень неплохо)
2) оба они собираются загружать туда новые данные (в 90% случаев к БД подключаются, чтобы что-то оттуда вынуть, а не загрузить)
3) оба они начали грузить (менять) данные немедленно после подключения к базе, т.е. быстрее, чем Я-диск
начал синхронизацию файлов
она начинается не в момент изменения данных в базе, а в момент подключения юзера. СУБД ставит соответствующий флаг в небольшом заголовочном файле. Как только Я-диск синхронизирует этот файл с облаком, а затем и другими локальными базами, все локальные клиенты поймут, что база занята, и запретят менять данные в ней, пока первый юзер не отключится
и СУБД обнаружила факт одновременного подключения к базе с двух компов.

На практике такие ситуации у нас маловероятны (точнее, их пока не было). Поэтому текущее решение для такого конфликта - откат изменений, внесенных одним из юзеров - хотя и суррогатное, но
нас устраивает...
Это же не текст, который ты мучительно выдумываешь из головы, потакая своим творческим инстинктам, а потом вдруг раз - и все написанное пропало (и уже не вернешь). В нашем случае аннулирование внесенных правок чаще всего означает, что одному из юзеров придется заново запустить процедуру загрузки своего файла в базу после того, как коллега закончит свою операцию

Написано более двух лет назад
d'Ivan @2ord

Несколько схоже с Apache CouchDB по смыслу, у которого используется мульти-мастер синхронизация. Только у вас синхронизация без разрешения конфликтов.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности

9 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 241 просмотр
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 146 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 147 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 106 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 291 просмотр
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 228 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 237 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 272 просмотра
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 374 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент. 2025
- 472 просмотра
1

ответ
Показать ещё Загружается…

Go Developer

ITK academy • Казань

от 75 000 до 125 000 ₽

Middle Backend Developer (PHP, Yii2)

Студворк • Москва

от 150 000 ₽

Программист 1С (Нижний Новгород)

Инком • Нижний Новгород

от 160 000 до 230 000 ₽

возможно вам сюда инструменты агрегирования баз данных или сюда распределенные базы данных
Алексей Дещеревский, один из самых популярных инструментов в крупных проектах https://ru.wikipedia.org/wiki/Hadoop
один из самых популярных инструментов в крупных проектах https://ru.wikipedia.org/wiki/Hadoop

Не, у нас гораздо более ограниченная по функционалу система. К этому семейству она точно не относится и соответствующая терминология только запутает. У нас каждый юзер де-факто работает на своем локальном компе, в личном рабочем пространстве, и преимущественно со своей личной БД. Все дополнительные возможности (по сравнению с ПК без сети) заключаются в том, что он может по мере необходимости "полупрозрачно" подтягивать фрагменты данных из чужих баз. Ну или записывать туда что-то, но это бывает нужно гораздо реже.

В общем, у нас получилось по классике: "...не мышонок, не лягушка, А неведома зверюшка». Которая как-то работает и со своими задачами в общем справляется.

Но вот как все это назвать?!
Вы создали иерархию независимых реплик и она никак не контролируется мастер-узлом. В итоге у вас имеется множество версий, прямо как в биологии, где каждый организм может создать свой подвид, который наделён новыми свойствами.

Дмитрий,

Я бы назвал кластер баз
кластер это про согласованность данных, а здесь не тот случай
Несколько схоже с Apache CouchDB по смыслу, у которого используется мульти-мастер синхронизация. Только у вас синхронизация без разрешения конфликтов.

Answer 1 · 2023-12-14 10:38:59

Вы говорите об одной из реализаций архитектуры федеративных баз данных - "системе баз данных".
В федеративной системе баз данных, каждая база данных имеет свою собственную точку входа, и пользователи подключаются к конкретному узлу для доступа к данным. Эти базы данных работают вместе, но они могут функционировать независимо друг от друга. Это обеспечивает гибкость при работе с данными и позволяет управлять данными на уровне отдельных узлов.

Т.е. в описанном случае всю систему можно назвать "системой баз данных" или описать её как "реализована федеративная модель баз данных", а каждый отдельный узел вполне корректно назвать базой данных.

https://dataliteracy.ru/dmbok-notes-6

Answer 2 · 2023-12-14 11:12:17

В любой непонятной ситуации называй это "система".
В вашем случае - система баз данных. Или более широко - система сбора и обработки данных.
Теперь вы можете говорить о ваших БД как о компонентах системы. Реализация обмена базами данных между пользователями/отделами/лабораториями через Яндекс диск - это тоже компонент вашей системы.
Также вы можете описать регламенты работы с такой системой.

Вопрос о терминах. Есть набор БД, с каждой из которых можно работать отдельно либо со всеми сразу. Как правильно называется такая система?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт