Что лучше: больше полей или больше Join?

Question

Евгений Старцев @jey_val_star

Программист

MySQL

Что лучше: больше полей или больше Join?

Есть таблица посты (posts).
На сайте, у каждого поста, выводятся кнопки соц сетей (поделиться в VK, telegram и тд)

Задача - отлавливать клики по кнопкам соц сетей и сохранять в бд для дальнейшей статистики (в каком посте какую соц сеть сколько раз кликнули)

Таблица posts
id | name | title ... и прочие

Таблица socials (пока так)
id | post_id | social_name | date

выводить нужно
id поста | Название поста | vk | tg | ok | tw
(в колонках vk tg ok tw выводится кол-во кликов)

по текущей структуре таблицы socials, для каждой колонки кол-ва кликов (vk tg ok tw) нужен отдельный join

Итак вопрос:
(интересует именно производительность - дабы с возрастанием кол-ва таких кликов и кол-ва постов не отвалился запрос)
Как лучше - куча join-ов для формирования таблицы вывода или изменить таблицу socials добавив колонки vk | tg | ok | tw (и отмечать 0/1 был клик или нет) и один join с подсчетом кол-ва нужной колонки (прим.: sum(vk))

текущий запрос

SELECT 
    posts.id, 
    posts.name, 
    count(s_vk.id) as count_vk, 
    count(s_tg.id) as count_tg,
    count(s_ok.id) as count_ok,
    count(s_tw.id) as count_tw,
FROM posts
   LEFT JOIN socials as s_vk on s_vk.post_id = posts.id and s_vk.social_name = 'vk'
   LEFT JOIN socials as s_tg on s_tg.post_id = posts.id and s_tg.social_name = 'tg'
   LEFT JOIN socials as s_ok on s_ok.post_id = posts.id and s_ok.social_name = 'ok'
   LEFT JOIN socials as s_tw on s_tw.post_id = posts.id and s_tw.social_name = 'tw'
GROUP BY posts.id

Сейчас постов примерно 1000

Вопрос задан более трёх лет назад
478 просмотров

6 комментариев

Подписаться 4 Простой 6 комментариев

twobomb @twobomb

И чё прям нужно знать время каждого клика?
Нельзя просто количество кликов хранить?
Вообще этот же запрос по идее выполняется администратором где-то админке при просмотре статистики, а там впринципе производительность не важна, тем более сомневаюсь я что это какой нибудь популярный высоконагруженный сайт.
Если нужно хранить дату клика то можно сократить её до дня, тоесть будет таблица
id | post_id | social_name | date_day | count
и просто добавлять +1 в count за текущий день, это сильно уменьшит количество записей если их предполагается много. Я сомневаюсь что там нужна прям почасовая статистика

Написано более трёх лет назад
mayton2019 @mayton2019

Щас уже никто так не делает. От joins отказались. Делают несколько разных систем. Одна - регистрирует клики. Другая хранит. Третья - сводит это в отчёты в реальном времени.

Написано более трёх лет назад
mletov @mletov

А данные прям риалтайм нужны? Если нет, то может типа кэширования запилить, например, по раз в какой-то промежуток времени шедулеру складывать в таблицу и при просмотре статистики ее джоинить.

Типа

Social | Count | DateUpdate | PostId
vk | 1000 | 2012-01-01 14:00 | 1
fb | 1000 | 2012-01-01 14:00 | 2
ok | 1000 | 2012-01-01 14:00 | 2

Написано более трёх лет назад
Akina @Akina

текущий запрос

Ну и зачем подкидывать серверу лишней работы? Бегать, смотреть socials.id... когда можно использовать повторно уже использованное при связывание поле.

Заменить count(s_vk.id) as count_vk, на count(s_vk.post_id) as count_vk,, то же по остальным полям.

Как лучше - куча join-ов для формирования таблицы вывода или изменить таблицу socials добавив колонки vk | tg | ok | tw (и отмечать 0/1 был клик или нет) и один join с подсчетом кол-ва нужной колонки (прим.: sum(vk))

Денормализация может, конечно, ускорить... но по мере роста объёма данных невозможность индексации для оптимального плана выполнения быстро скушает этот профит. Либо придётся создавать кучу коррелированных подзапросов - тоже не сахар.
Я за "кучу джойнов".

Написано более трёх лет назад
mayton2019 @mayton2019

Можно socials побить на partitions по 5 минут времени. Время микро-батча типа.
Вот. И обновлять статистику всех постов по всем соц-сетям за время этого батча.
Кумулятивно. Добавлять короче.

В статистике будет лаг. Но он будет регулируемый. Захотим - 1 минута будет.
Зато гарантировано константное время батча.

Написано более трёх лет назад
Akina @Akina

Рассмотрите также вариант партиционирования таблицы socials по полю social_name - это позволит не указывать условие and s_vk.social_name = 'vk', а просто указывать нужную партицию для каждой связываемой копии.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 133 просмотра
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 114 просмотров
1

ответ
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 365 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 248 просмотров
1

ответ
MySQL

Простой
Выдаёт ошибку #1062 — Дублирующаяся запись '??????' по ключу 'PRIMARY', как исправить?
- 1 подписчик
- 16 февр.
- 217 просмотров
2

ответа
MySQL

Простой
Как оптимизировать или создать правильно mysql запрос?
- 1 подписчик
- 11 февр.
- 224 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить 3 массива из одного запроса?
- 2 подписчика
- 01 февр.
- 318 просмотров
4

ответа
MySQL

+1 ещё

Простой
Почему не работает кастомное поле в CDR?
- 1 подписчик
- 20 янв.
- 167 просмотров
1

ответ
MySQL

+2 ещё

Средний
Как определить, необходимую версию tomcat и mysql?
- 1 подписчик
- 07 янв.
- 225 просмотров
1

ответ
MySQL

Средний
Почему время в mysql опережает на пару секунд?
- 4 подписчика
- 06 янв.
- 455 просмотров
4

ответа
Показать ещё Загружается…

И чё прям нужно знать время каждого клика?
Нельзя просто количество кликов хранить?
Вообще этот же запрос по идее выполняется администратором где-то админке при просмотре статистики, а там впринципе производительность не важна, тем более сомневаюсь я что это какой нибудь популярный высоконагруженный сайт.
Если нужно хранить дату клика то можно сократить её до дня, тоесть будет таблица
id | post_id | social_name | date_day | count
и просто добавлять +1 в count за текущий день, это сильно уменьшит количество записей если их предполагается много. Я сомневаюсь что там нужна прям почасовая статистика
Щас уже никто так не делает. От joins отказались. Делают несколько разных систем. Одна - регистрирует клики. Другая хранит. Третья - сводит это в отчёты в реальном времени.
А данные прям риалтайм нужны? Если нет, то может типа кэширования запилить, например, по раз в какой-то промежуток времени шедулеру складывать в таблицу и при просмотре статистики ее джоинить.

Типа

Social | Count | DateUpdate | PostId
vk | 1000 | 2012-01-01 14:00 | 1
fb | 1000 | 2012-01-01 14:00 | 2
ok | 1000 | 2012-01-01 14:00 | 2
текущий запрос

Ну и зачем подкидывать серверу лишней работы? Бегать, смотреть socials.id... когда можно использовать повторно уже использованное при связывание поле.

Заменить count(s_vk.id) as count_vk, на count(s_vk.post_id) as count_vk,, то же по остальным полям.

Как лучше - куча join-ов для формирования таблицы вывода или изменить таблицу socials добавив колонки vk | tg | ok | tw (и отмечать 0/1 был клик или нет) и один join с подсчетом кол-ва нужной колонки (прим.: sum(vk))

Денормализация может, конечно, ускорить... но по мере роста объёма данных невозможность индексации для оптимального плана выполнения быстро скушает этот профит. Либо придётся создавать кучу коррелированных подзапросов - тоже не сахар.
Я за "кучу джойнов".
Можно socials побить на partitions по 5 минут времени. Время микро-батча типа.
Вот. И обновлять статистику всех постов по всем соц-сетям за время этого батча.
Кумулятивно. Добавлять короче.

В статистике будет лаг. Но он будет регулируемый. Захотим - 1 минута будет.
Зато гарантировано константное время батча.
Рассмотрите также вариант партиционирования таблицы socials по полю social_name - это позволит не указывать условие and s_vk.social_name = 'vk', а просто указывать нужную партицию для каждой связываемой копии.

Answer 1 · 2022-12-16 07:19:41

Куча count - возможно, но не join-ов.

SELECT 
    posts.id, 
    posts.name, 
    count(case when s_vk.social_name = 'vk' then 1 end) as count_vk, 
    count(case when s_vk.social_name = 'tg' then 1 end) as count_tg,
    count(case when s_vk.social_name = 'ok' then 1 end) as count_ok,
    count(case when s_vk.social_name = 'tw' then 1 end) as count_tw
FROM posts
   LEFT JOIN socials as s_vk on s_vk.post_id = posts.id 
GROUP BY posts.id, posts.name

В вашем случае для ускорения не подходит ни то, ни другое.
Нужно вести отдельную таблицу в качестве кеша с аналогичными полями:
posts_id,
count_vk,
count_tg,
count_ok,
count_tw
При возникновении события клика на соц. сеть - добавлять запись в socials, а также триггером плюсовать значение по полю кеш-таблицы (и предварительно создавать запись в этой таблице по post_id, если не было ранее событий).
Для необходимости сброса кеша нужно сделать хранимую процедуру для его перегенерации на основе данного запроса.
PS:
Еще бы разбить таблицу socials - на справочник соц. сетей:
id - идент. соц сети.
full_name - полное название соц. сети,
abbrev - аббревиатура, например, ОК, ВК и т.д.
tag_name - тех. название, например, ok, vk и т.д.
... - другие параметры соц. сети

И таблицу для фиксации кликов:
soc_click_events
id - идент. события,
post_id - идент. поста,
social_id - идент. соц. сети,
event_date - дата и время клика,
... - другие параметры клика

PPS:
В итоге, для фиксации событий клика и поддержания структуры базы в нормальной форме вы используйте три таблицы - posts, socials и soc_click_events.
Для решения статистических задач вы делаете отдельные кеш-таблицы и обслуживаете их либо триггерами, либо хранимыми функциями и процедурами, получая статистические данные из первичной структуры.

Answer 2 · 2022-12-16 00:59:46

Больше джоинов - нужно больше индексов и запрос дольше и сложнее будет выполняться из-за необходимости джоинить и обращаться к разным областям диска.

Больше колонок - больше места занимает отдельная запись, больше места занимает вся база, нужно больше индексов, если нужно по этим колонкам фильтроваться. Запрос дольше выполняется из-за необходимости больше данных с диска читать.

+ Учитывай, какой вариант тебе будет поддерживать легче, если нужны будут какие-то изменения.

Нужно смотреть на конкретное железо и статистику, чтобы понять, какой вариант будет эффективнее.

Конкретно в этом случае мне больше нравится вариант, где будет по колонке на каждую соцсеть - так СУБД сможет в один проход и без каких-либо индексов всё посчитать.

А ещё в вашем кейсе можно посмотреть в сторону БД временных рядов.
А ещё можно вообще не фиксировать каждый отдельный клик, а хранить уже в агрегированном виде количество кликов на каждом посте (может быть как дополнение к предыдущим вариантам, чтобы ускорить запросы)

Что лучше: больше полей или больше Join?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт