Какую базу данных использовать для хранения метаданных?

Question

O_oo @O_oo

Базы данных

Какую базу данных использовать для хранения метаданных?

Разрабатываю приложение, которое должно сохранять координаты разметки и ряд метаданных в локальный файл БД. Метаданные не имеют четкой структуры и могут иметь по-разному заполненные поля. В основе будет использоваться большое количество операций на чтение. Отсюда вопрос - что будет предпочтительнее использовать? Лично мой выбор пал на mongoDB, однако хотел бы услышать стороннее мнение.

Вопрос задан более двух лет назад
287 просмотров

12 комментариев

Подписаться 1 Простой 12 комментариев

N @Fernus

Да

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev

Лично мой выбор пал на mongoDB

У вас есть три лишних сервера и не жалко оперативной памяти?

Написано более двух лет назад
O_oo @O_oo Автор вопроса

Сергей Горностаев, Не понимаю вашего вопроса и его смысла

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev

O_oo, суть монги в том, что это хорошо масштабируемая горизонтально кластерная СУБД, а чтобы собрать кластер, нужно минимум три узла. Ну и каждый узел памяти будет жрать на порядок больше, чем например PostgreSQL при том же примерно сценарии использования и тех же нагрузках.

Написано более двух лет назад
O_oo @O_oo Автор вопроса

Сергей Горностаев, Я прошу немного вникнуть в суть вопроса. Если его не поняли, то давайте распишу чуть подробнее. Я делаю приложение, которое занимается разметкой изображений, хранящиеся в формате, который не открывает ни один редактор, кроме специализированного ПО и фотошопа. К сожалению из-за того, что производители оборудования для работы с этими данными не соблюдают стандарты заполнения мета-данных, то их структурированность напрочь отсутствует. Они могут содержать как 3, так 300 строк полезной информации. Разрабатываемое ПО нацелено на специалистов, которые занимаются визуальной оценкой снимков. Их задача выделить и указать - есть что-то на изображении или нет. Далее координаты выделенных областей вместе в метаданными следует записать в какой-то один файл, чтобы потом его мне передали и я занимался дальнейшими вопросами с этими координатами и метаданными, поскольку я могу банально использовать названия файлов в качестве идентификатора. Поэтому я посчитал, что наиболее подходящим решением может быть монга.

Поскольку коммерческого опыта у меня нету, то я задал вопрос, чтобы мне дали наводку что почитать/посмотреть. Ну или дать по шапке, если я творю дичь

Написано более двух лет назад
N @Fernus

O_oo, На начальном этапе Вам подойдёт...

Написано более двух лет назад
N @Fernus

Сергей Горностаев, Вы тоже правы...НО у автора вопрос НЕ в масштабировании...а в NoSQL...
А для этой задачи...Mongo "тупо" подходит...
А далее...уже другая история... :)

Написано более двух лет назад
O_oo @O_oo Автор вопроса

N, не могли вы пояснить - что имеется ввиду под словом "тупо"?
Это отсылка на ранее озвученные темы в отношении многопользовательского доступа и поиска? Или тут что-то иное

Написано более двух лет назад
N @Fernus

O_oo, Я имел ввиду... что поставленный Вами вопрос - напрямую(тобишь тупо - тобишь в лоб) подходит к Вашей задаче.

P.S.: Если нет никаких скрытых "вводных" или "условий"...

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev

N, монга не единственная документоориентированная СУБД. К тому же, пожелания автора вполне может удовлетворить тип JSONB в постгре.

Написано более двух лет назад
O_oo @O_oo Автор вопроса

Сергей Горностаев, исходя из того, что я читал, работают монга и постгре плюс минус одинаково быстро на относительно небольших объемах данных. А монга мне показалась банально просто удобнее

Написано более двух лет назад
Сергей Горностаев @sergey-gornostaev

O_oo, только постгря запускается с восемью мегабайтами оперативы, а монге надо минимум два гига на узел. Но я вас не агитирую, думайте сами.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

4 комментария

N @Fernus

Мне кажется с таким вопросом...автору хоть Mongo...Хоть любая почти другая пойдёт...ему же только "для хранения метаданных"...)) Искать и выбирать походу ему ненадо...))

P.S.: Я к тому, чтобы вопросы научились формулировать...пусть возьмёт Mongo - въедет в пня(или не въедет) - придёт с более точным вопросом(или не придёт) :)

Написано более двух лет назад
O_oo @O_oo Автор вопроса

N, верно, искать и выбирать не надо, поэтому вопрос был составлен полностью корректно

Написано более двух лет назад
N @Fernus

O_oo, Тогда в бой... :)

Написано более двух лет назад
mayton2019 @mayton2019

O_oo, go-go.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

8 комментариев

N @Fernus

Автор же сказал...что да-да - нет-нет...он в курсе чё спросил...уже в бой пошёл... :)

P.S.: А Вы уже "капнули" в дебри...))
P.S.S.: Но - ответ - годный.

Написано более двух лет назад
mayton2019 @mayton2019

Круче только хранение данных в каком-нибудь постом формате в блочном устройстве диска или раздела (например идентификатор записи - ее смещение в файле, а там как то хранить ее размер и сами данные)

Капец ты демон :)

Это уже не разработка приложения а разработка своей DBMS. Ну дай бох хоть Mongo он осилит и внедрит.

Написано более двух лет назад
O_oo @O_oo Автор вопроса

mayton2019, прошу по уважительней выражать свои мысли. Выглядит слишком надменно и токсично подобное построение предложения

Написано более двух лет назад
mayton2019 @mayton2019

Пятница брат. Я открыл банку светлого. Я - по доброму. Без токсикоза.

Написано более двух лет назад
rPman @rPman

Я пытаюсь донести мысль что на сложных базах данных 'свет клином не сошелся', там за универсальность, многопоточность и транзакции записи приходится платить ресурсами, и зачастую заметно.

Своя реализация простых ситуаций не сложная, и я считаю что каждый уважающий себя программист должен за бы раз в жизни сколхозить свою реализацию хранилища данных под задачу.

В награду можно получить что то типа скорости записи на уровне IOPS диска, когда как sql база будет медленнее на порядок.

Написано более двух лет назад
O_oo @O_oo Автор вопроса

rPman, вы предлагаете заниматься бесполезными вещами в контексте четко обозначенной задачи, где есть конкретные инструменты. Какой смысл изобретать велосипед?

Написано более двух лет назад
Владислав Лысков @Vlatqa

O_oo, что за время, прыснуть ядом лишний раз нельзя

Написано более двух лет назад
rPman @rPman

O_oo, сэкономить на железе, в моем случае я смог решить задачу с дешёвыми десктопными hdd, терабайты.... Типовые инструменты тупо не справились бы, а покупать ssd такого объема в то время было мягко говоря не реал.

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 310 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 298 просмотров
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 174 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 170 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 121 просмотр
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 309 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 252 просмотра
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 286 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 388 просмотров
1

ответ
Показать ещё Загружается…

Лично мой выбор пал на mongoDB

У вас есть три лишних сервера и не жалко оперативной памяти?
Сергей Горностаев, Не понимаю вашего вопроса и его смысла
O_oo, суть монги в том, что это хорошо масштабируемая горизонтально кластерная СУБД, а чтобы собрать кластер, нужно минимум три узла. Ну и каждый узел памяти будет жрать на порядок больше, чем например PostgreSQL при том же примерно сценарии использования и тех же нагрузках.
O_oo, На начальном этапе Вам подойдёт...
Сергей Горностаев, Вы тоже правы...НО у автора вопрос НЕ в масштабировании...а в NoSQL...
А для этой задачи...Mongo "тупо" подходит...
А далее...уже другая история... :)
N, не могли вы пояснить - что имеется ввиду под словом "тупо"?
Это отсылка на ранее озвученные темы в отношении многопользовательского доступа и поиска? Или тут что-то иное
O_oo, Я имел ввиду... что поставленный Вами вопрос - напрямую(тобишь тупо - тобишь в лоб) подходит к Вашей задаче.

P.S.: Если нет никаких скрытых "вводных" или "условий"...
N, монга не единственная документоориентированная СУБД. К тому же, пожелания автора вполне может удовлетворить тип JSONB в постгре.
Сергей Горностаев, исходя из того, что я читал, работают монга и постгре плюс минус одинаково быстро на относительно небольших объемах данных. А монга мне показалась банально просто удобнее
O_oo, только постгря запускается с восемью мегабайтами оперативы, а монге надо минимум два гига на узел. Но я вас не агитирую, думайте сами.

Answer 1 · 2024-07-19 17:19:52

Основной use-case при работе с любыми данными это "запрос".

Ты должен задать себе вопрос как я буду эти данные искать? По каким атрибутам?
Например базы данных семейства key-value почти всегда всем подходят и всем нравятся
за высокую скорость и дешевизну. Но это - только при условии что вы делаете поиск по ключевым атрибутам.
Но вы не сможете к ним сделать агрегации (group by).

Ничего плохого не могу сказать про Mongo. Но загрузи сначала туда хотя-бы сотню тысяч
ситетических документов и смоделируй нагрузку. Вдруг Монга уже на этом этапе захлебнется
и не потянет. Получается что твой выбор был неправильный.

Из личного опыта. Часто выбирают какую-то БД из того что человек (команда) уже раньше
с ней поработали и уже имеет опыт. И такое реально было и с Ораклом и с MS-SQL. Люди их
выбирали не потому что они хороши а чаще всего потому что "так привыкли". И десяток
лицензий были уже давно куплены. Почему-бы не использовать. Заказчик оплатил.
Так жить проще. Так и живут. И так строят архитектуры.

Answer 2 · 2024-07-19 19:03:45

Помимо поиска и чтения, есть вопрос по многопользовательскому доступа к данным, особенно на время записи, атомарные транзакции - одна из причин, почему выбирают сложные реляционные ьд (да это есть и в некоторых nosql).

Если не нужно следить за целостностью данных и искать по атрибутам, только по идентификатору, то подойдёт любая база данных, даже простое хранение файлов на объект с любой сериализацией данных, современные файловые системы отлично работают с миллионом файлов в каталоге (правда при таких объемах я бы все же советовал норм базу), причем никакая реализация бд не будет давать быстрее доступ чем чтение файла.

Круче только хранение данных в каком-нибудь постом формате в блочном устройстве диска или раздела (например идентификатор записи - ее смещение в файле, а там как то хранить ее размер и сами данные), ни одна другая реализация не даст чтение и запись быстрее (под вопросом удаление записей, но и тут есть эффективные решения), ну только что своя реализация кэширования данных, но это очень хардкор...

Какую базу данных использовать для хранения метаданных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт