Как можно ускорить выполнение SQL запроса?

Question

Владимир Рыжов @AprelVovanya

Кодю

Как можно ускорить выполнение SQL запроса?

MySQL запрос:

select `product_id`, count(*) as `cnt`
from `product_prop`
where `prop_id` in (1,2,3,...)
group by `product_id`
order by `cnt` desc

В таблице две колонки `product_id` и `prop_id`.
Индексы: product_id, prop_id, product_id+prop_id уникальный
В таблице 85М записей, будет больше, и если `prop_id` in (1,2,3,...) штук 20, может быть и больше, запрос выполняется 18 секунд, что прям совсем много. Если убрать сортировку, то выполняется моментально, но без неё никак. Пробовал having, но то же самое, что, как бы, и логично.

Вопрос задан более двух лет назад
2368 просмотров

12 комментариев

Подписаться 4 Простой 12 комментариев

Sergey @KingstonKMS

Пробовали подзапросы составлять?

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

Sergey, выносил where in в подзапрос - никаких изменений

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

«Пользователь удалён», по логике нужно получить список id продуктов, имеющий указанный список id свойств. В данном запросе результаты сортируются по убыванию этих самых совпадений.
Надо наверное это всё на проде затестить, может это он локально на столько сильно долгий.

Написано более двух лет назад
otdameskapizm @otdameskapizm

можете попробовать вместо IN использовать оператор EXISTS. А вообще в идеале неплохо было бы query plan посмотреть

Написано более двух лет назад

Sergey @KingstonKMS

Владимир Рыжов, а так?

Select `product_id`, `cnt` from (select `product_id`, count(*) as `cnt`
from `product_prop`
where `prop_id` in (1,2,3,...)
group by `product_id`) as q1
order by `cnt` desc

Написано более двух лет назад

Сергей Горностаев @sergey-gornostaev

Владимир Рыжов, если на проде больше ресурсов, то запрос может выполняться быстрее, но принципиально ничего не изменится, сортировка большого объёма данных без индекса быстрой быть не может. Вероятно, стоит посмотреть в сторону эластика, который с подобными задачами справляется на много лучше реляционной СУБД и лучше масштабируется горизонтально.

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

Sergey, так же долго как и мой вариант

Написано более двух лет назад
Akina @Akina

Sergey, а какая разница, кэшировать выборку просто так или как подзапрос?

Написано более двух лет назад
V1nn1 @V1nn1

Колонки в индексе product_id+prop_id именно в таком порядке? Т.к. вам нужен prop_id на первом месте

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

V1nn1, этот индекс не используется, так что порядок не важен. Перевожу это на meilisearch, там всё шустро.

Написано более двух лет назад
V1nn1 @V1nn1

Владимир Рыжов, а как он может использоваться, если он не подходит?)

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

V1nn1, весь запрос упирается в "order by `cnt` desc", сортировка по вычисляемому полу, на котором и индекса нет, при тестировании мне вернуло 2М записей, которые нужно сортировать по этому полю, если сортировку убрать, то всё летает. Так что упирается оно точно не в этот индекс.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

4 комментария

Владимир Рыжов @AprelVovanya Автор вопроса

Не обязательно сортировать по вычисляемому полю, достаточно было бы `cnt` = количеству параметров, но это картины не меняет

Написано более двух лет назад
Dmitry Bay @kawabanga

А есть практические случаи (статьи), где можно почитать о таком подходе?

Написано более двух лет назад
Akina @Akina

Dmitry Bay Данный метод и указанный лимит - они получены в основном эмпирически. Хотя если долго разбираться с тонкими настройками оптимизатора, то там точно есть необходимая информация. Кто-то лет несколько этим даже озаботился, но у меня концов от этого материала не осталось.

Впрочем, достаточно просто по одной записи увеличивать количество значений в списке и сравнивать фактическое время выполнения и построенные планы выполнения запросов.

Написано более двух лет назад
Dmitry Bay @kawabanga

Akina, Я сейчас не говорю про то, что ваш метод медленней чем гипотетический другой, просто мне кажется сложно делать на вьюхах подобную задачу.

Я бы просто с прикола прогрел бы кэш на редисе. а там бы уже смотрел, сработало бы или нет.
А дальше бы сделал матрицы по prop_id и доп параметрам если нужно, и складывал бы на бэке. Не уверен что это было бы решение, но я бы попробовал так выкрутиться.

Написано более двух лет назад

2 комментария

4 комментария

Akina @Akina

Угу... 85М записей, 20 критериев. Ты хоть прикинь, какой размер будет у такого представления...

Написано более двух лет назад
mayton2019 @mayton2019

Akina, я думаю что там не будет все сочетания из 20.

Написано более двух лет назад
Владимир Рыжов @AprelVovanya Автор вопроса

mayton2019, Akina,
6М продуктов и 2500 свойств, запросить могут продукты которые содержат 50 свойств, или 2000 (это будет какой-то маньяк и в результате получит не больше одного продукта).
Я так думаю лучше уже сфинкса или эластика прикрутить

Написано более двух лет назад
mayton2019 @mayton2019

Владимир Рыжов, ну... смотри. Если без перфекционизма. Я-же не говорю что ты должен построить
все сочетания свойств.

Знаешь есть правило типа Паретто. 80% перформанса поедает 20% кода. Вот здесь - тоже
самое. Построй гистограмму частот этих комбинаций. И окажется что их не очень много.
А редкие - игнорируй.

Написано более двух лет назад

6 комментариев

YepBro @yesbro

Тормоза на процессе сортировки по count(*). Под это дело нет индекса.

В плане запроса видно, что индекс product_prop_prop_id_index используется для выборки по where `prop_id` in (1,2,3,...), составной индекс тут не нужен по сути.

Написано более двух лет назад
Akina @Akina

Может индекс поменять с product_id+prop_id на prop_id + product_id.

По этому индексу сервер вынужден будет делать фуллскан. Это лучше, чем по всей таблице, но куда хуже, чем по отфильтрованным записям.

Написано более двух лет назад
Руслан . @LaRN

Akina, тут не должно быть фулл скан.
Если в секции in небольшая выборка всех возможных значений, то не нужно весь индекс сканировать. Скан будет только по той части, где сработало условие по первому полю(это потому что индекс по сути дерево и его значения отсортированы)

Написано более двух лет назад
Akina @Akina

Руслан ., здрасьте, приехали. Ну да, пусть сервер отобрал по условию из WHERE. Но дальше-то он должен собрать записи в группы, чтобы считать агрегат. И что, он должен теперь выдёргивать для каждой группы записи из кусков индекса, то есть фактически пересортировывать фильтрованный набор? да нафиг ему это надо? гораздо быстрее простое сканирование.

Тогда как в начальном варианте он просто фильтрует каждую отдельную группу, и никакой сортировки для того, чтобы собрать в кучу отфильтрованные записи группы, не требуется. Можно сразу считать агрегаты.

Написано более двух лет назад
Руслан . @LaRN

Akina, не всегда быстрее. Если в выборку попадает 1% всех строк таблицы, то скан не быстрее. А группировка часто под капотом включает сортировку, это можно в плане запроса увидеть. Тут как оптимизатор посчитает правильным так исделает.

Написано более двух лет назад
Akina @Akina

Руслан .,
Тут как оптимизатор посчитает правильным так исделает.

Ну на то и декларативный язык..

Если в выборку попадает 1% всех строк таблицы, то скан не быстрее.

Это верно. Но частный случай, который обычно приходится хинтовать. В комментариях к одному из ответов автор показывает план. Там видно, что отбирается где-то 11-12% записей.

А ещё - сервер неспособен предсказать количество записей, отвечающих многозначному критерию из WHERE IN. А если он тупо попытается получить оценку на основании index cardinality, то у него ничего хорошего не получится - ведь он получит приблизительное количество уникальных пар, чего маловато для оценки процента отбираемых записей, ибо у композитных индексов равномерность не сказать чтобы частое явление, и к тому же у него нет cardinality по префиксу (а из другого индекса он его брать не умеет). Да и не будет он предсказывать - чай, не JOIN оптимизирует.

Написано более двух лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 131 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 111 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 364 просмотра
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 248 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 216 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

Пробовали подзапросы составлять?
Sergey, выносил where in в подзапрос - никаких изменений
«Пользователь удалён», по логике нужно получить список id продуктов, имеющий указанный список id свойств. В данном запросе результаты сортируются по убыванию этих самых совпадений.
Надо наверное это всё на проде затестить, может это он локально на столько сильно долгий.
можете попробовать вместо IN использовать оператор EXISTS. А вообще в идеале неплохо было бы query plan посмотреть
Владимир Рыжов, а так?

Select `product_id`, `cnt` from (select `product_id`, count(*) as `cnt` from `product_prop` where `prop_id` in (1,2,3,...) group by `product_id`) as q1 order by `cnt` desc
Владимир Рыжов, если на проде больше ресурсов, то запрос может выполняться быстрее, но принципиально ничего не изменится, сортировка большого объёма данных без индекса быстрой быть не может. Вероятно, стоит посмотреть в сторону эластика, который с подобными задачами справляется на много лучше реляционной СУБД и лучше масштабируется горизонтально.
Sergey, так же долго как и мой вариант
Sergey, а какая разница, кэшировать выборку просто так или как подзапрос?
Колонки в индексе product_id+prop_id именно в таком порядке? Т.к. вам нужен prop_id на первом месте
V1nn1, этот индекс не используется, так что порядок не важен. Перевожу это на meilisearch, там всё шустро.
Владимир Рыжов, а как он может использоваться, если он не подходит?)
V1nn1, весь запрос упирается в "order by `cnt` desc", сортировка по вычисляемому полу, на котором и индекса нет, при тестировании мне вернуло 2М записей, которые нужно сортировать по этому полю, если сортировку убрать, то всё летает. Так что упирается оно точно не в этот индекс.

Answer 1 · 2024-01-10 11:50:07

если `prop_id` in (1,2,3,...) штук 20, может быть и больше, запрос выполняется 18 секунд, что прям совсем много.

Критичное количество значений в таком списке - порядка 7..10, дальше действительно запрос резко замедляется.

Workaround: создаём индексированную временную таблицу в памяти, записываем в неё набор значений, используем в запросе:

CREATE TEMPORARY TABLE criteria (prop_id INT PRIMARY KEY) ENGINE = Memory
SELECT prop_id FROM (VALUES ROW(1), ROW(2), ROW(3), ...) criteria (prop_id);

и потом

select `product_id`, count(*) as `cnt`
from `product_prop`
NATURAL JOIN criteria 
group by `product_id`
order by `cnt` desc

Ну а ускорить ORDER BY по вычисляемому полю - вообще без шансов.

Answer 2 · 2024-01-10 11:08:20

как понимаю это сортировка товаров от наиболее подходящих до обладающих 1м из признаков.
Сделай вспомогательную таблицу статистики сколько товаров всего с заданным проп_ид.
обновление по тригерам.

потом смотришь в нее и береш максимальный из (1,2,3...) например 3
Далее запрос будет из двух проекций (A и B) на твою таблицу
select product_id from `product_prop` A where prop_id=3 (этим мы уходим от фулскана по 85М)
и добавляем подзапрос посчитать сколько совпало осталных свойств
select product_id,(... подзапрос .....) from `product_prop` A

Answer 3 · 2024-01-10 11:02:48

План запроса, пожалуйста :)

Результат запроса полностью помешается в память? peak_memory_used (из EXPLAIN filesort_summary) больше чем sort_buffer_size из настроек базы?

Запрос похоже никак не оптимизировать. Вот обсуждение подобной проблемы https://stackoverflow.com/questions/75306623/order...

Надо или тюнить mysql или думать над каким-то кешированием/промежуточными расчетами (хотя пока не вижу что тут можно кешировать).

Answer 4 · 2024-01-10 11:38:45

Можно материализовать. Перечислить все комбинации prop_id и создать такое представление

prop_ids | responce
---------|---------
'1,2,3'  | [ { "prod_001" : 200 }, { "prod_333" : 134 } , ..... ]
'2,3,4'  | [.....]

Answer 5 · 2024-01-11 07:47:22

Может индекс поменять с product_id+prop_id на
prop_id + product_id. Отбор же по prop_id идет, а тут не попадание в первое поле индекса.

Answer 6 · 2024-01-12 11:34:42

На мой взгляд, сугубо поверхностный , без разбивки таблицы на части ( Аля продукт до 1м, 2м и т.д.), хранимок или переноса части логики касательно группировки, подсчёта на бек не обойтись для ускорения.

Answer 7 · 2024-01-18 22:43:28

Для выполнения группировки создаётся временная таблица, а уже потом происходит сортировка по этой временной таблице. Группировка очень быстрая так как по индексу, а сортировка медленная так как в созданной временной таблице никаких индексов для сортировки уже нет и приходится сортировать без индексов (Using filesort). Вот что могу посоветовать:

1) Убедится что временная таблица создаётся в памяти, SHOW STATUS LIKE 'Created_tmp_disk_tables' не должно расти.
2) Убедится что сортировка происходит без создания временных файлов на диске. Для этого нужно убедится что SHOW STATUS LIKE 'Sort_merge_passes'; не растёт быстро. Если растёт то перед запросом сессионно прибавьте значение настройки sort_buffer_size.
3) Лучшее решение: записей у вас много, лучше придумать другую структуру данных чтобы отказаться от этого запроса.

PS На всякий случай приведите вывод EXPLAIN и EXPLAIN ANALYZE когда у вас prop_id` in (1,2,3,...) штук 20, интересно из-за чего увеличивается время запроса: из-за роста кол-ва записей которые попадают в выборку или из-за того что в какой-то момент MySQL решает что full table scan выгодней и отказывается от использования индекса

Как можно ускорить выполнение SQL запроса?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт