Как оптимизировать запрос получения рекомендуемых постов с одним из тех же тегов?

Question

d'Ivan @2ord

SQL

Как оптимизировать запрос получения рекомендуемых постов с одним из тех же тегов?

Есть таблица постов с тегами, упрощенно:

CREATE TABLE `post_tags` (
  `site_id` int NOT NULL,
  `post_id` int NOT NULL,
  `tag` VARCHAR(255) NOT NULL,
  `published_at` datetime NOT NULL,
  PRIMARY KEY (`post_id`,`tag`), /* составной первичный индекс */
  KEY `by_site` (`site_id`,`published_at` DESC),
  KEY `by_site_tag` (`site_id`,`tag`,`published_at` DESC)
);

Составил такой запрос

SELECT
	DISTINCT(t2.post_id) as post_id
FROM (
	SELECT post_id, tag, site_id FROM post_tags
	WHERE post_id = 123  /* находим все посты с тегами у исходного поста */
) t1
INNER JOIN post_tags t2
	ON t1.site_id = t2.site_id AND t1.tag = t2.tag  /* пересечение с тегами у исходного поста и сайтом */
WHERE t2.site_id = 555 AND t2.post_id != 123  /* исключаем исходный пост и фильтруем по сайту */
ORDER BY t2.published_at DESC;

EXPLAIN вырисовывает нерадужную картину:

id	select_type	table	partitions	type	possible_keys	key	key_len	ref	rows	filtered	Extra
1	SIMPLE	tags_sort	NULL	ref	PRIMARY,by_site_tag,by_site	PRIMARY	2002	const	3	30.10	Using where; Using temporary; Using filesort
1	SIMPLE	t2	NULL	ref	PRIMARY,by_site_tag,by_site	by_site_tag	884	const,post_tags.tag	1	93.55	Using where; Using index

Какие рекомендации по индексам?
Как можно упростить запрос, возможно исключив подзапрос?
Или есть предложения по структуре таблицы?

Вопрос задан более трёх лет назад
88 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Продвинутый SQL

5 недель

Далее
Яндекс Практикум

SQL для разработки

4 месяца

Далее
Академия Eduson

SQL-разработчик: тариф Базовый

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

d'Ivan @2ord Автор вопроса

tag IN(..список tag из п1)

После разбиения все еще получается
Using index condition; Using where; Using filesort
что неприемлемо для меня.

Написано более трёх лет назад
nokimaro @nokimaro

Роман Мирр, подозреваю что filesort может быть потому что не используется нормально составной индекс, например order by published_at может вызывать filesort

Написано более трёх лет назад
d'Ivan @2ord Автор вопроса

nokimaro, не могу выкинуть сортировку order by published_at ...

Написано более трёх лет назад
nokimaro @nokimaro
Роман Мирр,

KEY `by_site_tag` (`site_id`,`tag`,`published_at` DESC)

по идее этот индекс должен покрывать

WHERE site_id = ... AND tag IN(...) ORDER BY published_at DESC

в остальном, по опыту просто filesort не так страшен, страшнее temporary + filesort
Написано более трёх лет назад
nokimaro @nokimaro

Роман Мирр, ну выкинуть сортировку конечно всегда можно, и сортировать в приложении.
но повторюсь, filesort не всегда означает что там file
есть хорошая старая статья по теме https://www.percona.com/blog/2009/03/05/what-does-...

я если говорим про оптимизацию, то это всегда компромис. померьте скорость, выбирите оптимальный вариант.

Написано более трёх лет назад

1 комментарий

3 комментария

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

Простой
Как получить последнюю запись для определённого поля?
- 1 подписчик
- 03 дек.
- 211 просмотров
2

ответа
SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 2 подписчика
- 11 нояб.
- 221 просмотр
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 191 просмотр
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 232 просмотра
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 256 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 328 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 104 просмотра
0

ответов
SQL

+1 ещё

Простой
Как объединить 2 таблицы обращаясь к одному и тому же полю 2 раза?
- 1 подписчик
- 08 сент.
- 213 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 223 просмотра
1

ответ
SQL

+1 ещё

Средний
Как правильно написать запрос в SQL с NOT IN, NOT EXISTS или как-то иначе?
- 1 подписчик
- 28 авг.
- 196 просмотров
1

ответ
Показать ещё Загружается…

Database Administrator / DBA

Playerok

от 300 000 ₽

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

Senior DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

Answer 1 · 2020-03-22 18:21:44

Иногда лучший способ оптимизации, разбить сложный запрос на два простых, в том числе на каждый запрос можно прикрутить отдельно кеширование
1. SELECT tag FROM post_tags WHERE post_id = 123
2.

SELECT DISTINCT(post_id) FROM post_tags WHERE tag IN(..список tag из п1)

Answer 2 · 2020-03-22 19:47:46

1. EXPLAIN точно от этого запроса? Что-то я не вижу в запросе таблицы `tags_sort`.
2. Попробуйте в JOIN поменять местами поля:
ON t2.site_id = t1.site_id AND t2.tag = t1.tag

Answer 3 · 2020-03-22 21:08:19

mayton2019 @mayton2019

Bigdata Engineer

Что такое 123 и 555 ? Это переменные? Или константы?

Это важно понимать для дальнейшей оптимизации.

Ответ написан более трёх лет назад

3 комментария

Answer 4 · 2020-03-22 22:29:54

Несколько вопросов:
1) Теги могут дублироваться? Или они уникальные?

2) Один и тот же тег - может быть привязан к разным постам. Так ведь?
Можно попробовать сделать следующее: разбить все на три таблицы:
- posts: id / site_id / published_at
- tags: id / name [и можно поставить еще ключ уникальности на поле name]
- post_tag_binding: post_id / tag_id [и поставить уникальный составной ключ на post_id + tag_id]

3) Тогда запрос, приблизительно, будет выглядеть вот как-то так:

select
	p.id
from posts as p, post_tag_binding as p_t_b
where p.site_id = 124 and 
      p.id != 123 and 
      p.id = p_t_b.post_id and 
      p_t_b.tag_id in (
      	select 
      		p_t_b2.tag_id
      	from post_tag_binding as p_t_b2
      	where p_t_b2.post_id = 123
      )

4) Один и тот же пост - может быть привязан к разным сайтам? Если да, то нужно сделать еще одну таблицу: post_site_binding, в которой будут содержаться поля - post_id / site_id. Это немного усложнит выборку, но не значительно. И так же - можно будет сделать уникальный ключ по двум этим полям.

Я бы предложил следующую структуру:
- posts: id / title / description / created_at и т.д.
- tags: id / name [и можно поставить еще ключ уникальности на поле name]
- sites: id / name [и можно поставить еще ключ уникальности на поле name]
- post_tag_binding: post_id / tag_id [и поставить уникальный составной ключ на post_id + tag_id; дополнительно - сюда можно будет добавить еще site_id, если предполагается, что на разных сайтах может быть разный набор тегов для одного и того же поста]
- post_feed: post_id / site_id / published_at [т.е. делаем еще одну таблицу, в которой будем хранить - даты, когда и на какой сайт данный пост был опубликован]

Как оптимизировать запрос получения рекомендуемых постов с одним из тех же тегов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт