Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Question

Narts @Narts

Базы данных

Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Например, есть таблица rating_history:
id
...
user_id
post_id
amount (например, +100, -12, 0)

Таблица post
id
...
category_id

Таблица category
id
name
...

Задачи:
1. Получать общий рейтинг юзера. Тут все просто - SELECT SUM
2. Получать рейтинг юзера в конкретной категории. Тут запрос будет с join-ом: к rating_history нужно будет джойнить post, чтобы добавить выборку по post.category_id

Вопросов несколько:
1. Насколько хорошая/плохая идея использовать MYSQL SUM? (таблица rating_history будет достаточно большой)
2. Насколько хорошая/плохая идея использовать MYSQL SUM и джойны?
3. Может добавить "промежуточную" таблицу: id, user_id, category_id, sum и обновлять в ней данные при инсерте в rating_history? Однако вижу тут потенциальные проблемы рассинхрона и большой размер таблицы
4. Может есть оптимальные и лакониченые решения для таких задач?

Вопрос задан более года назад
92 просмотра

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Яндекс Практикум

Java-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 153 просмотра
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 199 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 307 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 433 просмотра
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 205 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 93 просмотра
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 168 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4858 просмотров
8

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 406 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 214 просмотров
2

ответа
Показать ещё Загружается…

Golang Developer

TAGES • Уфа

от 143 400 до 290 300 ₽

Старший дизайнер специальных проектов

Хабр • Москва

от 180 000 до 200 000 ₽

Разработчик Форсайт

Линасофт • Москва

от 100 000 до 250 000 ₽

А в какие временные рамки должен уложиться запрос суммы?
Если в 200...500 мс, то париться не надо. Традиционный запрос всегда уложится в это время в рамках вашей схемы данных.
Если стоит задача получить время < 50 мс, то да, вам нужен любой инструмент кеширования, хоть средствами самой СУБД.

Answer 1 · 2024-05-01 08:43:40

SUM это нормально, пока ты укладываешься в какие-то твои установленные лимиты времен. Если не укладываешься, что начитаешь поиск узкого места и его оптимизацию, вариантов много, кеширование, денормализация и прочее. Выбор зависит от найденного узкого места, так что учись как замерять время запросов, анализировать его план, так и профилировать код. Ну и преждевременная оптимизация зло.

Answer 2 · 2024-05-01 12:44:21

В зависимости от размера дополнительных данных и количества памяти, но часто да, это хорошая практика.

У меня был пример, когда рядом с огромной таблицей, я самостоятельно специальным демоном поддерживал таблицу, где в ячейках дублировал агитирующую информацию (суммы, min/max и т.п. при чем по всем моим статистическим запросам, там десятки параметров), за некоторый период (подбирать экспериментально или эмпирически по логике запросов), например по месяцам, за исключением последнего периода. Когда данных много, даже при использовании индексов, посчитать сумму за весь период по условию по всем данным - очень длительная операция. У меня было ручное разбиение исходного массива на текущий месяц и архив (это можно было делать средствами БД но мне удобнее было самому вести две отдельные таблицы) и при переносе устаревших данных в архив, велось заполнение этой агрегирующей таблицы.

В итоге запросы на аналитику за весь период проходили не по архивной таблице, а по этой аналитической + небольшой таблице за последний месяц. Запросы становятся сложнее но работают быстрее.

Практика хранения часто вычисляемых данных в базе тут же рядом - очень частая.

Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт