Оптимизация структуры БД. Какие варианты в данном случае?

Question

N @Fernus

Техник - Механик :)

Оптимизация структуры БД. Какие варианты в данном случае?

Если делать БД по "общепринятым практикам" на MySQL, то будет выглядеть примерно так:
Есть "справочники", например:

spoiler

Справочник (A):

Кол-во записей: ~ 120 (почти никогда не добавляются/изменяются)

Справочник (B):

Кол-во записей: ~ 10 000 (добавляются/изменяются редко)

Справочник (C):

Кол-во записей: ~ 5 000 (добавляются/изменяются редко)

Справочник (S):
id | name
Кол-во записей: ~ 100 (периодически добавляются/удаляются, но кол-во растёт)
Справочники A и B - это получается hasMany связь.

Есть данные, которые связаны с этими справочниками по такому принципу:

spoiler

Таблица с данными (D):
id | s_id | другие_поля...

Кол-во записей: ~ 3 000 000 (постоянно обновляются/добавляются/удаляются и кол-во растёт)
На каждый s_id от 1 000 до 600 000 записей (т.е. неравномерно).

Связная таблица D_B:
link_id | b_id

Кол-во записей: ~ 4 000 000 (на каждый d_id от 1 до 10 b_id...чаще от 1 до 3)

Связная таблица D_C:
link_id | c_id

Кол-во записей: ~ 3 500 000 (на каждый d_id от 1 до 3 c_id...чаще 1)

Частые выборки:

spoiler

1. Получить записи из справочника "A" с учётом переданных ID'шников из справочника "S" и наличия в таблице D.
Кол-во ID'шников для фильтра может быть любым - чаще больше 40.
Тут логично с помощью JOIN соединить A, B и D.

2. Получить записи из справочника "B" с учётом переданных ID'шников из справочника "S" и справочника "A", и наличия в таблице D.
Кол-во ID'шников(S) для фильтра может быть любым - чаще больше 40.
Кол-во ID'шников(A) для фильтра может быть от 1 до 2 - чаще 1.
Тут, опять же, логично с помощью JOIN соединить A, B и D.

3. Получить записи из справочника "C" с учётом переданных ID'шников из справочника "S" и справочника "B", и наличия в таблице D.
Кол-во ID'шников(S) для фильтра может быть любым - чаще больше 40.
Кол-во ID'шников(B) для фильтра может быть от 1 до 10 - чаще 1.
Тут, опять же, логично с помощью JOIN соединить B, C и D.

4. Получить записи из таблицы "D" с учётом переданных ID'шников из справочника "S", справочника "B" и справочника C.
Кол-во ID'шников(S) для фильтра может быть любым - чаще больше 40.
Кол-во ID'шников(B) для фильтра может быть от 1 до 10 - чаще 1.
Кол-во ID'шников(C) для фильтра может быть от 1 до 5 - чаще 1.
Тут, опять же, логично с помощью JOIN соединить B, C и D.

Суть проблемы:
Если это всё работает на MySQL, то не получается оптимизировать запросы "стандартными" методами...индексы выручают, но из-за "переменного" кол-ва ID'шников по фильтру s_id индексы не так эффективны...т.к. приходится сканировать много записей...

Перетащил это всё на MongoDB с такой структурой:

Справочники остались в MySQL.

Таблица(коллекция) D:
id | s_id | a_id | b_id | c_id | другие_поля...

s_id - int;
a_id - int array;
b_id - int array;
c_id - int array.

На "эвентах" пришлось замудрить сохранение в кэш уникальных ID справочников A, B и C по наличию в D по каждому S...тем самым более-менее решились пункты 1, 2, и 3.
Хотя это можно было и оставшись на MySQL сделать... :)

Думаю попробовать перенести структуру на PostgreSQL аналогично MongoDB и использовать для выборки вот это:
https://www.postgresql.org/docs/9.1/intarray.html
Так же аналогичная штука появилась в MySQL 8:
https://saveriomiroddi.github.io/Storage-and-index...

Но мне кажется это не самый лучший подход...и не факт, что будет быстрее...

UPD:
Выложил EXPLAIN некоторых запросов...

Вопрос задан более трёх лет назад
301 просмотр

11 комментариев

Подписаться 2 Средний 11 комментариев

Дмитрий @iMedved2009

по общепринятым практиками таблицам и полям стоит давать понятные названия. ибо погружать в мозг справочник A, d_id, b_id как то даже лениво. Количество записей у вас такое что не должно быть проблем с общепринятым подходом.

Написано более трёх лет назад
N @Fernus Автор вопроса

Дмитрий,
Наоборот думал легче воспринять такие обозначения)
По сути 4 справочника A, B, C и S.
Одна таблица с данными D.

Количество записей у вас такое что не должно быть проблем с общепринятым подходом.

Да, я работал с данными и более 160 000 000 записей в MySQL...но там не было таких "неравномерно размазанных" данных по связям со справочниками...Особенно по s_id, т.к. тут разбег большой по кол-ву записей в D...

Написано более трёх лет назад
Дмитрий @iMedved2009

N, нет. Лучше описать задачу как есть. Сразу возникает шанс что кто то ее решал. А вот найти человека который смотрел на распределение в таблице D по справочнику A, b, c, s боюсь нулевой.
Не говоря о том что лучше бы видеть explain запросов которые у вас не оптимизируются

Написано более трёх лет назад
N @Fernus Автор вопроса

Если из условия задачи убрать фильтрацию по s_id (или сократить кол-во ID для фильтра в этом параметре до одного или нескольких значений), то время запроса становится терпимым...потому что на всю таблицу D примерно 100 уникальных s_id, но чаще выбираются записи по фильтру где более 40 ID...и выходит, что индекс по этому полю становится малоэффективным...т.к. большая часть таблицы сканируется...

Написано более трёх лет назад
N @Fernus Автор вопроса

Дмитрий, Завтра сделаю EXPLAIN и создам из реальных данных под описанные в задачи таблицы...чтобы было проще понять тогда)

Написано более трёх лет назад
N @Fernus Автор вопроса

Дмитрий, Изменил вопрос...добавил EXPLAIN...

Написано более трёх лет назад
mayton2019 @mayton2019

N, ну что? Оптимизировал?

Написано более трёх лет назад
N @Fernus Автор вопроса

mayton2019, Есть предложения?

Написано более трёх лет назад
mayton2019 @mayton2019

N, я свои уже сказал. Мне интересно какие ты принял решения. Буде монга или нет. Будет ли гибрид.

Написано более трёх лет назад
N @Fernus Автор вопроса

mayton2019, Если интересно...то был сначала MySQL...щас MySQL + MongoDB...+ решения, которые описал в комментарии к другому ответу...

Написано более трёх лет назад
N @Fernus Автор вопроса

mayton2019, Если ещё до сих пор интересно...монгу тоже в топку в итоге :)

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Java-разработчик

9 месяцев

Далее
Академия Eduson

Python-разработчик

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

4 комментария

N @Fernus Автор вопроса

Завтра выложу...может сегодня щас сделать успею...

Скажу сразу, я давно баловался с индексами и EXPLAIN запросами и пришёл к тому, что при фильтре по s_id, когда передаётся более 50-60% существующих ID, то начинается "затуп"...

Написано более трёх лет назад
N @Fernus Автор вопроса

Изменил вопрос...добавил EXPLAIN...

Написано более трёх лет назад
ThunderCat @ThunderCat Куратор тега MySQL

N, А можете запустить запрос без группировки для сравнения?

Написано более трёх лет назад
N @Fernus Автор вопроса

ThunderCat, Запускал...ускорения почти нет никакого...

Написано более трёх лет назад

7 комментариев

N @Fernus Автор вопроса

Вымарывать названия таблиц - это конечно ржачный идиотизм. NDA, да?

:)

1. Ну а по существу - ну вы из таблицы D я так понимаю выгребаете большую часть записей. Как бы ясень фиг что индекс не будет использоваться - смысл если вам все равно практически всю таблицу выдергивать. И оптимизации то тут какие могут быть если вы требуете от БД вытащить все записи из таблицы?

Чтобы совсем легче представить, вот упрощённо:

D - это товары;
A и B - категории, которые связанные между собой;
C - некая сущность товара (например "тип");
S - поставщик.

Каждый товар D может быть привязан к нескольким категориям B, а так же к нескольким "типам" C, но всегда принадлежит только одному поставщику S.
Из-за того, что у каждого поставщика "рандомное" кол-во товаров и нужно например доставать все уникальные категории A по 70 поставщикам отсюда и "скан" всей таблицы...

2. У вас там в нескольких местах mysql вам сообщает что ключей возможных несколько - может вам попробовать композитные индексы?

Имеете ввиду составные индексы? Пробовал...разницы не заметил...

Написано более трёх лет назад
N @Fernus Автор вопроса

P.S.: Ещё нужно учитывать, что обновления в таблицу D почти круглосуточные большими пачками...
Это была ещё одна причина уйти от MySQL...ибо куча связных таблиц и куча UPDATE/INSERT...

Тут задача не именно MySQL ускорить...а найти подходящее решение в виде любой БД...

Написано более трёх лет назад
Дмитрий @iMedved2009

N,
Имеете ввиду составные индексы? Пробовал...разницы не заметил...

Стоит привести explain. Равно и какой порядок полей в составном индексе вы делали?

A и B - категории, которые связанные между собой;

А почему одна сущность "категории" разбита по двум таблицам?

Из-за того, что у каждого поставщика "рандомное" кол-во товаров и нужно например доставать все уникальные категории A по 70 поставщикам отсюда и "скан" всей таблицы...

Ну и если мы заранее понимаем что так или иначе нам делать scan всей таблицы - то как бы какие тут оптимизации? У вас что MySQL будет это делать, что PostgreSQL, что Mongo.

И оптимизация тут будет одна - отдельная таблица или вью (материализованное) которая пересчитывается или обновляется ровно под эти запросы. А пересчет изменений - там уж в зависимости от того как часто мы это дергаем - кроном, триггером.

Написано более трёх лет назад
Дмитрий @iMedved2009

N,
P.S.: Ещё нужно учитывать, что обновления в таблицу D почти круглосуточные большими пачками...
Это была ещё одна причина уйти от MySQL...ибо куча связных таблиц и куча UPDATE/INSERT...

И вы собираетесь постгрес? Ну прочитайте про то что все индексы в постгре вторичны, про оптимизации hot, warm или как они - для того что бы постгрес индексы лишний раз не мурыжил.

Тут задача не именно MySQL ускорить...а найти подходящее решение в виде любой БД...

Если проблема в том что мне надо перелопачивать миллионы записей с диска - ну как бы любая БД будет пыхтеть. То есть задача не должна быть - в выборе БД, а задача в том что бы он не 3 миллиона записей с диска тащил, а чуток поменьше

Написано более трёх лет назад
N @Fernus Автор вопроса

Дмитрий,

Стоит привести explain. Равно и какой порядок полей в составном индексе вы делали?

Да не вижу смысла...я пробовал...про порядок индексов тоже в курсе...

А почему одна сущность "категории" разбита по двум таблицам?

Ну по сути это две разные сущности(категории для примера), которые между собой связаны как один(A) ко многим (B).

И оптимизация тут будет одна - отдельная таблица или вью (материализованное) которая пересчитывается или обновляется ровно под эти запросы. А пересчет изменений - там уж в зависимости от того как часто мы это дергаем - кроном, триггером.

На таких "костылях" и едет щас :)
А данные меняются очень часто...поэтому эти все эти "хвосты" в виде "пересчётов" хотелось бы как-то сделать меньше...

Написано более трёх лет назад
Дмитрий @iMedved2009

N,
Да не вижу смысла...я пробовал...про порядок индексов тоже в курсе...

Ну значит проблема решена. И это хорошо

Написано более трёх лет назад
N @Fernus Автор вопроса

Если проблема в том что мне надо перелопачивать миллионы записей с диска - ну как бы любая БД будет пыхтеть. То есть задача не должна быть - в выборе БД, а задача в том что бы он не 3 миллиона записей с диска тащил, а чуток поменьше

Ну я это понимаю...просто миллионы записей будут расти...хотелось сразу что-то получше придумать...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Влияет ли размер индекса на скорость MySQL?
- 3 подписчика
- 09 дек.
- 253 просмотра
2

ответа
PostgreSQL

Простой
Почему не рабоатет npx prisma generate?
- 1 подписчик
- 02 дек.
- 130 просмотров
2

ответа
Windows

+1 ещё

Средний
Работа PostgreSQL на процессорах с гетерогенной архитектурой под Windows?
- 2 подписчика
- 29 нояб.
- 403 просмотра
4

ответа
MySQL

+1 ещё

Простой
Как правильно реализовать структуру таблиц продукт и цены продуктов?
- 1 подписчик
- 20 нояб.
- 195 просмотров
2

ответа
Windows

+1 ещё

Средний
Почему не создается логическая репликация на Windows 10 и падает воркер?
- 5 подписчиков
- 17 нояб.
- 351 просмотр
1

ответ
PostgreSQL

Простой
Как сделать поиск определенного значение в строке отобранной SELECT * FROM?
- 1 подписчик
- 13 нояб.
- 240 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 220 просмотров
1

ответ
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 260 просмотров
2

ответа
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 221 просмотр
1

ответ
PostgreSQL

Средний
Как получить данные и обновить записи в таблицах-источниках?
- 1 подписчик
- 05 нояб.
- 112 просмотров
1

ответ
Показать ещё Загружается…

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

по общепринятым практиками таблицам и полям стоит давать понятные названия. ибо погружать в мозг справочник A, d_id, b_id как то даже лениво. Количество записей у вас такое что не должно быть проблем с общепринятым подходом.
Дмитрий,
Наоборот думал легче воспринять такие обозначения)
По сути 4 справочника A, B, C и S.
Одна таблица с данными D.

Количество записей у вас такое что не должно быть проблем с общепринятым подходом.

Да, я работал с данными и более 160 000 000 записей в MySQL...но там не было таких "неравномерно размазанных" данных по связям со справочниками...Особенно по s_id, т.к. тут разбег большой по кол-ву записей в D...
N, нет. Лучше описать задачу как есть. Сразу возникает шанс что кто то ее решал. А вот найти человека который смотрел на распределение в таблице D по справочнику A, b, c, s боюсь нулевой.
Не говоря о том что лучше бы видеть explain запросов которые у вас не оптимизируются
Если из условия задачи убрать фильтрацию по s_id (или сократить кол-во ID для фильтра в этом параметре до одного или нескольких значений), то время запроса становится терпимым...потому что на всю таблицу D примерно 100 уникальных s_id, но чаще выбираются записи по фильтру где более 40 ID...и выходит, что индекс по этому полю становится малоэффективным...т.к. большая часть таблицы сканируется...
Дмитрий, Завтра сделаю EXPLAIN и создам из реальных данных под описанные в задачи таблицы...чтобы было проще понять тогда)
Дмитрий, Изменил вопрос...добавил EXPLAIN...
N, я свои уже сказал. Мне интересно какие ты принял решения. Буде монга или нет. Будет ли гибрид.
mayton2019, Если интересно...то был сначала MySQL...щас MySQL + MongoDB...+ решения, которые описал в комментарии к другому ответу...
mayton2019, Если ещё до сих пор интересно...монгу тоже в топку в итоге :)

Answer 1 · 2022-09-29 23:37:38

Перетащил это всё на MongoDB с такой структурой:

Справочники остались в MySQL.
.......
Какие есть идеи?

Думаю попробовать перенести структуру на PostgreSQL аналогично MongoDB и использовать

Дружище. Так жеж не делается в мире Документно-ориентированных БД! В монге ты делаешь не таблицы. А хранилища документов. Где каждый документ - самодостаточен и полностью хранит в себе всю информацию. Грубо говоря никаких СПРАВОЧНИКОВ и СВЯЗНЫХ таблиц у тебя быть не должно. И нельзя джойнить документы. И нельзя джойнить документы с таблицами MySQL.

Почитай про модель АГРЕГАТОВ в противовес реляционной модели. Это можно найти в книжках типа NoSQL и еще я находил это в доках по Cassandra.

Answer 2 · 2022-09-29 23:35:33

Суть проблемы:
Если это всё работает на MySQL, то не получается оптимизировать запросы "стандартными" методами...индексы выручают, но из-за "переменного" кол-ва ID'шников по фильтру s_id индексы не так эффективны...т.к. приходится сканировать много записей...

Так, а в чем собственно проблема? Где тайминги запросов, где explain по медленным запросам?

Answer 3 · 2022-09-30 17:08:38

Вымарывать названия таблиц - это конечно ржачный идиотизм. NDA, да?

1. Ну а по существу - ну вы из таблицы D я так понимаю выгребаете большую часть записей. Как бы ясень фиг что индекс не будет использоваться - смысл если вам все равно практически всю таблицу выдергивать. И оптимизации то тут какие могут быть если вы требуете от БД вытащить все записи из таблицы?

2. У вас там в нескольких местах mysql вам сообщает что ключей возможных несколько - может вам попробовать композитные индексы?

Оптимизация структуры БД. Какие варианты в данном случае?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт