Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Question

Narts @Narts

Базы данных

Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Например, есть таблица rating_history:
id
...
user_id
post_id
amount (например, +100, -12, 0)

Таблица post
id
...
category_id

Таблица category
id
name
...

Задачи:
1. Получать общий рейтинг юзера. Тут все просто - SELECT SUM
2. Получать рейтинг юзера в конкретной категории. Тут запрос будет с join-ом: к rating_history нужно будет джойнить post, чтобы добавить выборку по post.category_id

Вопросов несколько:
1. Насколько хорошая/плохая идея использовать MYSQL SUM? (таблица rating_history будет достаточно большой)
2. Насколько хорошая/плохая идея использовать MYSQL SUM и джойны?
3. Может добавить "промежуточную" таблицу: id, user_id, category_id, sum и обновлять в ней данные при инсерте в rating_history? Однако вижу тут потенциальные проблемы рассинхрона и большой размер таблицы
4. Может есть оптимальные и лакониченые решения для таких задач?

Вопрос задан 01 мая
85 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Базы данных

Простой
Что выбрать: sqlite или redis?
- 2 подписчика
- 17 часов назад
- 223 просмотра
3

ответа
Базы данных

+3 ещё

Простой
БД и Микросервис в одном pod, но разных контейнерах — хорошо или нет?
- 1 подписчик
- 17 часов назад
- 77 просмотров
3

ответа
Базы данных

Простой
Какую базу данных использовать для хранения метаданных?
- 1 подписчик
- 19 июл.
- 179 просмотров
2

ответа
Базы данных

Простой
Какие БД используют крупнейшие торговые сети для хранения заказов?
- 6 подписчиков
- 02 июл.
- 17365 просмотров
6

ответов
Веб-разработка

+3 ещё

Простой
Почему не удается настроить связь с БД?
- 1 подписчик
- 26 июн.
- 384 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как скачать базу данных JSON с Firestore (Firebase)?
- 1 подписчик
- 25 июн.
- 63 просмотра
1

ответ
Базы данных

Средний
Стоит ли хранить изображения base64 в БД?
- 1 подписчик
- 25 июн.
- 328 просмотров
3

ответа
PostgreSQL

+1 ещё

Простой
Как восстановить базу из дампа postgres?
- 2 подписчика
- 14 июн.
- 238 просмотров
1

ответ
PHP

+2 ещё

Простой
Как сделать возможность добавления картинки товара, загружая её перед этим в БД?
- 1 подписчик
- 07 июн.
- 131 просмотр
2

ответа
Веб-разработка

+1 ещё

Простой
Как правильно документировать разрастающуюся БД?
- 2 подписчика
- 23 мая
- 1840 просмотров
3

ответа
Показать ещё Загружается…

Аналитик данных (Инвестиции)

Intelinvest

от 50 000 ₽

Разработчик баз данных PostgreSQL

РИВЦ-Пулково • Санкт-Петербург

от 200 000 ₽

Администратор баз данных

Цифровые привычки

До 350 000 ₽

Верстка дизайна

26 июл. 2024, в 23:29

15000 руб./за проект

Заставить работать приложение на react+php (найти активацию)

26 июл. 2024, в 22:36

5000 руб./за проект

Сделать логотип в векторе

26 июл. 2024, в 22:02

2000 руб./за проект

А в какие временные рамки должен уложиться запрос суммы?
Если в 200...500 мс, то париться не надо. Традиционный запрос всегда уложится в это время в рамках вашей схемы данных.
Если стоит задача получить время < 50 мс, то да, вам нужен любой инструмент кеширования, хоть средствами самой СУБД.

Answer 1 · 2024-05-01 08:43:40

SUM это нормально, пока ты укладываешься в какие-то твои установленные лимиты времен. Если не укладываешься, что начитаешь поиск узкого места и его оптимизацию, вариантов много, кеширование, денормализация и прочее. Выбор зависит от найденного узкого места, так что учись как замерять время запросов, анализировать его план, так и профилировать код. Ну и преждевременная оптимизация зло.

Answer 2 · 2024-05-01 12:44:21

В зависимости от размера дополнительных данных и количества памяти, но часто да, это хорошая практика.

У меня был пример, когда рядом с огромной таблицей, я самостоятельно специальным демоном поддерживал таблицу, где в ячейках дублировал агитирующую информацию (суммы, min/max и т.п. при чем по всем моим статистическим запросам, там десятки параметров), за некоторый период (подбирать экспериментально или эмпирически по логике запросов), например по месяцам, за исключением последнего периода. Когда данных много, даже при использовании индексов, посчитать сумму за весь период по условию по всем данным - очень длительная операция. У меня было ручное разбиение исходного массива на текущий месяц и архив (это можно было делать средствами БД но мне удобнее было самому вести две отдельные таблицы) и при переносе устаревших данных в архив, велось заполнение этой агрегирующей таблицы.

В итоге запросы на аналитику за весь период проходили не по архивной таблице, а по этой аналитической + небольшой таблице за последний месяц. Запросы становятся сложнее но работают быстрее.

Практика хранения часто вычисляемых данных в базе тут же рядом - очень частая.

Стоит ли хранить больше данных в бд ради упрощения sql-запросов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт