Помогите подобрать подходящуюю БД

Question

avchizh @avchizh

Помогите подобрать подходящуюю БД

Подскажите пожалуйста БД обладающую следующими свойствами:

Не требуется персистентность;
Необходимо раз в 3-6 часов обновлять практически все ключи в БД (100М+ ключей объемом 50Гб);
Возможность раздавать данные по ключу (или по PK);
Это должна быть СУБД, а не встраиваемое решение;
На момент записи кластер такой базы данных в целом должен продолжать отвечать на запросы, по отдельности ноды могут блокироваться;
Not in-memory — объем данных будет превышать оперативную память;
Горизонтальное масштабирование и репликация;
Нормальная поддержка частой полной перезаписи всех данных (интересует вопрос работы с фрагментацией диска);
Совместимость с C# и Java;
Необязательно но желательно иметь auto key expire;

Наш процесс работы с такой БД:

Аналитический кластер раз в 4-6 часов выдает данные объемом 100М записей (50Гб), которые из себя представляются ключ \ массив из 20 значений, эти данные необходимо эффективно раздавать пользователям через фронт энд систему. В целом запрошено будет максимум 15% этих данных, остальные просто пролежат 4 часа и будут полностью перезаписаны после следующего цикла работы аналитической системы.

Что уже пробовали:

Раньше использовали MongoDB, но на серверах были слабые винты и пришлось перейти на Redis, сейчас винты сменили на очень быстрые, но объемы сильно выросли, поэтому думаем, что нам может еще подойти. В MongoDB смущают следующие вещи: оверхед на хранение данных (BSON, возможно это необоснованные страхи), фрагментация диска и дорогая цена дефрагментации (возможно есть выход), я не нашел возможность быстрой перезаписи всех данных так, что приходилось заливать весь массив заново после чего удалять старый.

Какую БД вы порекомендуете выбрать в нашем случае?

Вопрос задан более трёх лет назад
3890 просмотров

1 комментарий

Подписаться 3 Оценить 1 комментарий

Пригласить эксперта

Ответы на вопрос 8

2 комментария

Комментировать

8 комментариев

strib @strib

Oracle…

Написано более трёх лет назад
strib @strib

Или ms sql если предубеждения нет…

Написано более трёх лет назад
EugeneOZ @EugeneOZ

strib, за что Вы так ненавидите людей?

Написано более трёх лет назад
strib @strib

Работает, и нормально работает. Не требует месяца для настройки и ежедневных танцев. И спецов на рынке много… Так что людей я как раз люблю.

Написано более трёх лет назад
EugeneOZ @EugeneOZ

Хреново работает, постоянные выкаблучивания, самая худшая поддержка стандарта SQL из всех БД, не поддерживает UTF-8. Ненавижу MSSQL.

Написано более трёх лет назад
equand @equand

Не советовал бы Oracle. Конечно БД их хлеб, но видя их отношения суппорта в Java и в hardware секторе — доверять им как-то не хочется.

Написано более трёх лет назад
Николай Турнавиотов @foxmuldercp

Оракл — это суровый ентерпрайз и каждый банк/опсос да и любая крупная и не очень структура использует именно их.
Ну и да, спецы — оракловоды стоят приличных денег по з/п.

Написано более трёх лет назад
Alexander Lebedev @cawaleb

Извените, а что не так с поддержкой Oracle. Приходилось пару раз обращаться именно по БД. Один раз решили, действительно, серьезную проблему со словарем. В другой указали на ошибку софта и решили это совместно с разработчиками софта. С ms-sql почти не работал, чуть чуть с 2000 пришлось, но после Oracle, ощущение было как пересел с водительского места на пассажирское. Ты можешь подрегулировать кондиционер, опустить спинку кресла но не более, повлиять на машину ты не можешь.

Написано более трёх лет назад

Комментировать

2 комментария

Shedal @Shedal

Это не фрагментация. Просто монго заранее preallocate'ит файлы под данные. Если посмотреть в содержимое файлов конкретной БД, то вы увидите, что когда у вас данных немногим больше 1 ГБ, то данные пишутся в следующий файл, размером 2 ГБ. На самом деле он почти пустой, просто заранее выделен в файловой системе.
Более того, монго заранее выделит и следующий файл — 4 ГБ, даже когда реальных данных в нём вообще нет. Размеры я взял с потолка — стратегию размеров для новых файлов можно настраивать.

Так вот, когда реальные данные удаляются, то на диске файлы автоматически не чистятся и новые данные продолжают писаться в конец «старых». Это как раз в частности для того, чтобы избежать фрагментации.
Если хотите почистить файлы, выполните db.repairDatabase().

Больше информации о размере файлов: docs.mongodb.org/manual/faq/storage/#faq-disk-size

Написано более трёх лет назад
avchizh @avchizh Автор вопроса

Я действительно не верно выразился, все верно вы описали. Думаю что если буду использовать mongo db то буду каждый раз писать данные в новую колекцию а стараю дропать.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 81 просмотр
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 164 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4812 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 380 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 208 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 146 просмотров
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 221 просмотр
1

ответ
Базы данных

Простой
Какие есть утилиты для автоматизированного проектирования БД?
- 3 подписчика
- 02 апр.
- 2761 просмотр
5

ответов
Базы данных

Простой
RBAC: когда создавать нового пользователя в ДБ?
- 2 подписчика
- 26 февр.
- 204 просмотра
1

ответ
Linux

+1 ещё

Простой
Экспорт и импорт метрик из/в prometheus?
- 1 подписчик
- 05 февр.
- 106 просмотров
0

ответов
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Главное то все забыли спросить. Какой прогноз по росту???

Answer 1 · 2013-08-26 19:07:49

Вам чтобы бесплатно, или чтобы работало и кушать не просило?
В целом почти любая база, 50г это мелочи которые можно на mysql/innodb обмолотить.
И да, дешевле не перезаписывать данные, а писать непрерывно, а потом старые секции дропать целиком. Поэтому желательно с нормальной реализацией секционирования.
Если денег нет, то постгрес.

Answer 2 · 2013-08-26 21:33:50

Если платное однозначно Oracle
Бесплатное пойдет как mysql, так и postgres, лично я бы выбрал postgres.

Answer 3 · 2013-08-26 19:16:18

avchizh @avchizh Автор вопроса

Спасибо за ответ, а если деньги есть то что?

Ответ написан более трёх лет назад

8 комментариев

Answer 4 · 2013-08-26 20:54:22

EugeneOZ @EugeneOZ

Couchbase (там для аналитки Вам пригодится map reduce и самообновляемые views).

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2013-08-26 23:42:11

memcached (или аналоги, да хоть mysql) и много памяти — самое дешёвое решение. Вы вот только задачу совсем не описали. Действительно непонятно зачем кластер и как 100М+ ключей обновлять за три часа.

Answer 6 · 2013-08-27 00:19:00

эм, если порядка 50гб данных, то взять хотя бы на 128 гигов ssd — уже будет дурной прирост производительности в любой бд. только надо рассчитать на сколько его хватит, чтобы предварительно заказывать новый.

Answer 7 · 2013-08-27 11:31:38

Так и не понял, чем вам не подходит монга. У нее же простая и действенная масштабируемость — ключевая фича.

С оверхедом на хранение данных это вы зря. Во-первых, он есть практически везде, а во-вторых, storage сейчас очень дешевый.
По поводу фрагментации — разве BSON-документ может делиться на фрагменты? Насколько я помню, в дефолтной конфигурации монга этого не допускает.

Answer 8 · 2013-08-27 11:45:21

Спасибо за ваши ответы.

Подумаю оп PostgreSQL, но сложно с мамсштабируемостью.
SSD — уже заказан сервер на тест с ними

MongoDB сейчас действительно фаворит в личном чарте БД под задачу. Фрагментация MongoDb я имел ввиду, что когда я дважды заливаю по 50Гб данных в колекцию а потом один раз удаляю 50Гб то на винте почему то существенно больше 50Гб занято (на самом деле там больше 100Гб занято остается)

Помогите подобрать подходящуюю БД

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт