Какую БД лучше всего использовать для хранения 100 млн записей и больше?

Question

sarapulov_k @sarapulov_k

Базы данных

Какую БД лучше всего использовать для хранения 100 млн записей и больше?

MainTable, примерно следующая структура:
-id
-category(~ 100 символов)
-title (~ 200 символов)
-key (на основе title, без пробелов, латиница+цифры+дефис+нижнее подчеркивание)
-content (основная часть записи, может быть большой 10-100 тыс символов)
-date

category+key- уникальное значение

MetaTable (для хранения доп информации):
-meta_id
-id
-meta_key
-meta_value

В MainTable рассчитывается хранить до 100млн, следовательно в MetaTable может быть больше.

В "ширину" база данных еще может расширяться, скинул набросок, но в принципе он отображает схему. Она очень простая.

Для каждого category будет примерно 50-300 тыс записей.

Какую БД лучше всего использовать для хранения большого количества данных в такой структуре?

И еще хочу поинтересоваться, стоит ли использовать составной ключ category+key, вместо ID. По идее это же должно потом помочь в партиципировании по столбцу category (и в MainTable, и в MetaTable)?

Хотел бы получить советов от тех, кто уже сталкивался с подобными задачами и ссылки на мануалы, которые могут помочь разобраться в хранении большого количества данных

Вопрос задан более трёх лет назад
1571 просмотр

Комментировать

Подписаться 6 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 309 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 297 просмотров
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 170 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 120 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 307 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 251 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 386 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2019-10-22 13:38:11

Для каждого category будет примерно 50-300 тыс записей.

тогда логично вынести категорию в отдельную таблицу. Почитайте какой-нибудь учебник о проектировании БД и о нормальной форме, что-ли.

100 млн записей - это не много, и подойдет почти любая СУБД.

Answer 2 · 2019-10-22 13:47:58

Добрый день. СУБД под ваши нагрузки и правда можете выбирать любую. Лишь бы секционирование таблиц поддерживало. Postgres- очень хороший выбор. Есть нюанс Postgres, в некоторых случаях, может зависит от прямоты рук(т.е. как вы составите sql запрос). Как и у любой другой БД, есть свои особенности, с которыми вы можете встретиться, а можете не встретиться.
Ключ category+key вместо ID - не очень хорошая идея. Хотя бы поскольку только category имеет 100 символов, еще и key в придачу явно не пустой. Т.к. это первичный ключ по ним будет построен индекс. Ну и представьте, как будут выглядеть листовые блоки в индексах- при поиске в индексе нужного ключа придется по-битово сравнить 100 символов. Не критично, но идея не очень.
Если category повторяется- нормализуйте таблицу(Т.е. значения category вынесите в отдельную таблицу(сущность)) и в таблице MainTable храните внешний ключ(id ключа).
Смысла в поле key не вижу.