Как сохранять в БД данные о больших объектах (где-то 120-200 полей)?

Question

Дмитрий @hsc

full stack python back-end developer

Как сохранять в БД данные о больших объектах (где-то 120-200 полей)?

Приветствую!

На поточном проекте появилась задача сохранять в БД данные о больших объектах (где-то 120-200 полей). Эти данные практически никогда не будут запрашиваться одновременно. Скорее всего они будут запрашиваться порциями по 20-40 полей. Также, известно, что выборки будут редко пересекаться, чаще всего выборки будут идти сегментами, например от 1-го до 20-го поля, от 21-го до 40-го и т.д, но все же могут возникать ситуации когда выборки будут пересекаться.

Вопрос:
Как лучше представить такой объект в схеме БД?

Я не db-архитектор, посему могу ошибаться, но мне видятся 2 возможных варианта:
1. Создать несколько таблиц согласно предполагаемым сегментам. Предположительные плюсы: лучший кэш, возможность легкого шардинга по сравнению с партицированием монолитной таблицы. Минусы: overhead на ключевые поля и join'ы, overhead на разруливание на уровне логики приложения, не очень интуитивная схема и не очень легкий контроль данных.

2. Создать одну большую таблицу. Плюсы: предположительно лучший кеш, отсутствие overhead'а на join'ы и ключеые поля. Минусы — предположительные проблемы при масштабировании.

Ответ вроде бы очевиден, но я хочу просить совета именно с точки зрения производительности и опыта старших) Система большая и сложная, и мы можем позволить себе чуть сложнее написать код, но добиться лучшей производительности. Даже прирост в 5% будет ценным. Тесты пока не делал. Решил сначала спросить.

Благодарю и желаю всем добра!

Вопрос задан более трёх лет назад
2964 просмотра

4 комментария

Подписаться 3 Оценить 4 комментария

Дмитрий @hsc Автор вопроса

Забыл добавить в текст: БД - PostgreSQL, 9.2 - 9.3

Написано более трёх лет назад
SabMakc @SabMakc

Данные поля участвуют в запросах или в условиях выборки? Или их надо только хранить, а запрашиваются по 2-3 (пусть 10) ключевым полям?
Запросы идут только за последний час/день или за все время?
Сколько порций данных ожидается в течении дня (и будет ли расти это число)?

Написано более трёх лет назад
Дмитрий @hsc Автор вопроса

@SabMakc, поля участвуют в запросах. Условия выборки заведомо известны на уровне логики. Сейчас трудно сказать сколько полей будет запрашиваться, но точно не все. Предполагаю, что основная часть выборки будет по 20-30 полей/запрос. Данные будут запрашиваться постоянно на протяжении приблизительно 16 часов/сутку. Мы ожидаем ~5к-6к запросов/сек.

Стоит также сказать, что записей в таблицах будет не так много - около 60к-100к на пиковых нагрузках. Именно поэтому хочется максимально задействовать кэш. Памяти у нас не очень много, да и посчитать сколько ее потребуется на данном этапе сложно (много text-полей).

Написано более трёх лет назад
SabMakc @SabMakc

Просто я хотел предложить часть данных сохранить в виде сериализованных объектов. Но этой подойдет только в том случае, если эти данные не участвуют в условиях выборки, а только запрашиваются. Или несколько полей-объектов - для каждой группы свой. Такой метод хранения подойдет как для одной, так и для нескольких таблиц.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

SEO-специалист от AMDG

4 месяца

Далее
Skillbox

Интернет-маркетолог с нуля до PRO

4 месяца

Далее
Digital Skills Academy

Mini-MBA: Интернет-маркетолог

4 месяца

Далее

Решения вопроса 2

Комментировать

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 243 просмотра
4

ответа
Поисковая оптимизация

Сложный
Что будет если поставить 301 редирект в Яндексе таким образом?
- 2 подписчика
- 03 окт.
- 128 просмотров
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Влияет ли наличие целей в метрике на ранжирование?
- 3 подписчика
- 01 окт.
- 124 просмотра
2

ответа
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 199 просмотров
2

ответа
Поисковая оптимизация

+3 ещё

Простой
Нужна ли официальная маркировка покупаемых в SAPE ссылок как реклама?
- 1 подписчик
- 15 сент.
- 157 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 132 просмотра
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 122 просмотра
1

ответ
WordPress

+1 ещё

Простой
Сильно ли влияет использование элементора на скорость загрузки сайта?
- 2 подписчика
- 06 сент.
- 455 просмотров
6

ответов
Поисковая оптимизация

Средний
Почему в сниппете не миниатюра, а рандомные картинки с сайта?
- 1 подписчик
- 02 сент.
- 127 просмотров
1

ответ
Поисковая оптимизация

+1 ещё

Простой
Как защитить ленд от дублей при A/B тестировании через 302 редирект?
- 1 подписчик
- 02 сент.
- 76 просмотров
2

ответа
Показать ещё Загружается…

Project manager / Resource manager

Regex SEO

от 1 500 до 3 000 $

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Менеджер цифровых проектов

Российский Красный Крест • Москва

от 100 000 ₽

Забыл добавить в текст: БД - PostgreSQL, 9.2 - 9.3
Данные поля участвуют в запросах или в условиях выборки? Или их надо только хранить, а запрашиваются по 2-3 (пусть 10) ключевым полям?
Запросы идут только за последний час/день или за все время?
Сколько порций данных ожидается в течении дня (и будет ли расти это число)?
@SabMakc, поля участвуют в запросах. Условия выборки заведомо известны на уровне логики. Сейчас трудно сказать сколько полей будет запрашиваться, но точно не все. Предполагаю, что основная часть выборки будет по 20-30 полей/запрос. Данные будут запрашиваться постоянно на протяжении приблизительно 16 часов/сутку. Мы ожидаем ~5к-6к запросов/сек.

Стоит также сказать, что записей в таблицах будет не так много - около 60к-100к на пиковых нагрузках. Именно поэтому хочется максимально задействовать кэш. Памяти у нас не очень много, да и посчитать сколько ее потребуется на данном этапе сложно (много text-полей).
Просто я хотел предложить часть данных сохранить в виде сериализованных объектов. Но этой подойдет только в том случае, если эти данные не участвуют в условиях выборки, а только запрашиваются. Или несколько полей-объектов - для каждой группы свой. Такой метод хранения подойдет как для одной, так и для нескольких таблиц.

Answer 1 · 2014-01-23 20:26:02

kompi @kompi

nullstack devoops

Посмотрите в сторону materialized views (9.3)

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-01-23 22:07:53

Всё, конечно, зависит от деталей. Тут может быть столько деталей, что даже наводящие вопросы смысла нет задавать. Но.
Лучше делать отдельные таблицы. Это один из принципов управления сложностью. Называется декомпозиция. Если появляются такие страшные цифры в 100-120 полей таблицы, то значит, что с таблицей что-то не так.

Answer 3 · 2014-01-24 03:59:15

Дмитрий @hsc Автор вопроса

full stack python back-end developer

Дополню ответы информацией, которую нашел:
Postgres: many columns or several tables?

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2014-02-10 10:31:20

Поля, по которым нужно что-то интенсивно делать, надо иметь отдельно, а остальные - в hstore. hstore мы придумали как раз для таких задач, когда есть очень много "хлама", который нужен только для показа. Правда, потом, мы добавили индексы и теперь в этом хламе можно еще и искать :)

Как сохранять в БД данные о больших объектах (где-то 120-200 полей)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт