Какие таблицы работают эффективнее?

Question

Rett-oo @Rett-oo

Какие таблицы работают эффективнее?

Подскажите пожалуйста, в каком формате эффективнее хранить структурированные данные. К примеру имеется такая таблица:

(Это частный случай, на на этом примере будет понятно, что я имею ввиду)

Данная таблица загружается через БД в Power BI и поскольку все таблицы в отчётах постоянно сортируются и фильтруются встаёт вопрос производительности. Например эту таблицу можно разделить на таблицы: "Артикул, Категория, Подкатегория", "Артикул, Габариты" Вопрос: как лучше хранить данные, разделять большие(широкие) таблицы на узкие или лучше хранить подобные данные в одной таблице. Где то читал, что эффективнее хранить в узких таблицах. Насколько это правда?
Если хранить лучше в разных таблицах, то на каком этапе лучше джойнить таблицы, в бд или в Power BI?

Вопрос задан более трёх лет назад
174 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 91 просмотр
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 353 просмотра
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 171 просмотр
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 333 просмотра
3

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 347 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 350 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Как обновить PostgreSQL 1С с 12 до 18 версии на windows?
- 3 подписчика
- 11 февр.
- 802 просмотра
2

ответа
Excel

+1 ещё

Простой
В какой складской программе можно это сделать?
- 1 подписчик
- 27 янв.
- 267 просмотров
4

ответа
PostgreSQL

Простой
Как увидеть все запросы к postgres?
- 1 подписчик
- 15 янв.
- 318 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Почему не запускается контейнер DB в Docker?
- 1 подписчик
- 08 янв.
- 387 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2023-03-17 17:37:06

На каждую таблицу будет заводиться индекс PK, если количество записей будет одинаковое (в смысле на каждое значение PK будет по одной записи в каждой таблице) - будет хуже, так как размер индекса у каждой таблице растет с ростом количества записей в ней, и много таблиц - много по факту отдинаковых индексов (но для разных таблиц он хранится), поэтому разделять по мелким узким таблицам имеет смысл только для разряженных данных, когда записи появляются только при наличии данных, причем чем больше таких отдельных таблиц тем больше должна быть 'разряженность' данных, чтобы это имело смысл.

Так как объем ПЗУ значительно выше (при той же стоимости) чем ОЗУ (а требования к ней таковы что индексы желательны влезать в нее, хотя бы для оперативных запросов) то лучше забить на оптимизацию по занимаемому месту данными, чем увеличить кратно требования для оперативного хранения индексов.

Поэтому - не дроби на большое количество таблиц, пусть будет меньше таблиц с большим количеством полей, но без фанатизма, если видишь что появляется куча условий not null когда как для нескольких таблиц это отрабатывается inner join, то тогда да (not exists лучше чем is null).

p.s. в догонку про сериализацию данных в одно поле, когда одно поле БД хранит сразу несколько значений - это оправдано и даже рекомендуется, если эти данные не имеют смысл по отдельности, красивый пример ip-адрес и порт как настройки подключения - суть одни данные, и нет никакого смысла разделять их на разные поля базы, за исключением случаев когда возможно потребуется активная аналитика по отдельному полю (например по ip адресу) - 'активная' тут это значит нужно строить индексы и делать частые запросы а не разовый full scan бакэндом.

Дробление данных на большое количество полей - повышает нагрузку на бакэнд (спорное утверждение, бывает наоборот, но зачастую да), правда для тех разработчиков, где такая оптимизация имеет смысл, такими вопросами не задаются, нужны действительно большие нагрузки.

Answer 2 · 2023-03-17 17:19:49

Зависит от задачи. Зависит от критериев "эффективности" (пока чётко не задано, можно трактовать "эффективность" вольно).
Но в общем случае лучше не делить, чем делить и джойнить.

Какие таблицы работают эффективнее?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт