Насколько дорогая операция GROUP BY() + SUM()?

Question

entermix @entermix

Насколько дорогая операция GROUP BY() + SUM()?

Допустим есть таблица:

statistics

date (int), user_id(int), param1(int), param2(int), param3(int) ...

Настроены индексы:
uniq_user_id_date
fk_user_id

Делаем примерно такую выборку:

$sql_date_format = '%Y-%m';
// $sql_date_format = '%Y-%m-%u';
// $sql_date_format = '%Y-%m-%d %H:00:00';
// ...
        $statistics_obj = DB::select()
            ->select(
                ['date', 'date'],
                [DB::expr('DATE_FORMAT(FROM_UNIXTIME(`date`), :date_format)', [
                    ':date_format' => $sql_date_format,]), 'date_formatted',],
                [DB::expr('SUM(`param1`)'), 'param1']
            )
            ->from(ORM::factory('Statistic')->table_name())
            ->where('user_id', '=', $user->id)
            ->and_where('date', 'BETWEEN', [$this->_start, $this->_end])
            ->group_by('date_formatted')
            ->as_object()
            ->execute();

Предположим, что записи в таблице содержат поминутную статистику для каждого пользователя. Какова вероятность, что такие выборки будут медленными, если в таблице будут миллионы записей?

UPD: Эта информация будет использована для построения графиков (живая статистика в ЛК). Графики и таблицы (по часам/по неделям/по месяцам/по годам)

Вопрос задан более трёх лет назад
457 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Помогут разобраться в теме Все курсы

Skillbox

Java-разработчик

8 месяцев

Далее
Shultais Education

Основы SQL

3 месяца

Далее
OTUS

PHP Developer. Professional

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

4 комментария

entermix @entermix Автор вопроса

> Что значит в вашем представлении медленные?
Эта информация будет использована для построения графиков. (по часам/по неделям/по месяцам/по годам)

> Какое железо?
Core i7-7700 4.2ГГц (4 ядра) / 16Гб RAM / 2x256Гб SSD

> Какие индексы?
Индексы указаны в вопросе: uniq_user_id_date, fk_user_id

>И че гадать-то - нагенерируйте случайных данных и проверьте.
Интересует опыт других пользователей.

Написано более трёх лет назад
m0nym @m0nym

entermix,
Интересует опыт других пользователей.

Опыт других говорит, что критерии "хорошо-плохо" суть очень разные.

Я еще забыл упомянуть про:
количество пользователей одновременно это делающих,
как часто строятся графики,
возможно ли кэширование,
какой фонд оплаты работы разработчику.

На моей практике график, что строится раз в неделю согласны были ждать и по 15 минут.
Они конечно хотели бы сократить до 5 секунд, но когда узнали стоимость работ (не такую уж и высокую) - отказались.

Любой ответ здесь подразумевает, что отвечающий какие-то свои сценарии подразумевает.

Написано более трёх лет назад
entermix @entermix Автор вопроса

m0nym, статистика в реальном времени, построение графика может запрашиваться любым пользователем (просто при открытии странички), графиков много. Кешировать на стороне клиента можно, но не хотелось бы.

Написано более трёх лет назад
m0nym @m0nym

entermix, здесь нужен индекс по полям, которые участвуют в group by и во where.
Причем индекс для BETWEEN типа TREE, а для прочих - типа HASH

Написано более трёх лет назад

7 комментариев

entermix @entermix Автор вопроса

Вы правы по поводу специализированной БД, но пока что нужно ограничится средствами MariaDB (10.3).

Дело в том, что эта таблица представляет собой срезы статистики, чтобы не делать сложные выборки с других таблиц. Сюда сбрасывается вся информация, которая собирается посуточно (одна запись для date + user_id), никаких проблем - все быстро и четко, вот сейчас появилась необходимость сделать ее почасовой, а возможно и поминутной.

Написано более трёх лет назад
m0nym @m0nym

entermix,
Вы правы по поводу специализированной БД, но пока что нужно ограничится средствами MariaDB (10.3).

Не проблема.
Просто забыть про то что вас учили про нормальную форму.
Вполне можно построить вспомогательные таблицы для более быстрой выдачи графиков.

Написано более трёх лет назад
entermix @entermix Автор вопроса

m0nym, Это и есть вспомогательная таблица

Написано более трёх лет назад
Maxim @really4g

entermix, а вы не думали нарезать партишоны целевой таблицы? Там есть ограничения конечно, при которых партицирование работать не будет, но думаю стоит обратиться к документации за получением исчерпывающего ответа.

Написано более трёх лет назад
entermix @entermix Автор вопроса

Maxim, подскажите, что конкретно Вы имеете в виду?

Написано более трёх лет назад
Maxim @really4g

entermix, если нарезать таблицу на куски (partitions) по определенным параметрам, например по датам, скорость выборки может увеличить. За счёт того что СУБД основываясь на информации о партицировании, будет обращаться в итоге к меньшему набору данных.
https://mariadb.com/kb/en/library/partitioning-ove...

Написано более трёх лет назад
entermix @entermix Автор вопроса

Maxim, теперь понял, но, в данный момент, информации не настолько много, чтобы делатьть это. В данном случае я задал вопрос, чтобы просто разобраться в том как работает функция GROUP BY :).

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+2 ещё

Средний
Как правильно обрабатывать концевые пробелы в SQL Server и PostgreSQL?
- 1 подписчик
- 11 нояб.
- 163 просмотра
1

ответ
MySQL

Простой
Почему SQL-запрос на MacOS (M2) исполняется медленнее, чем на shared-хостинге?
- 1 подписчик
- 08 нояб.
- 207 просмотров
1

ответ
MySQL

Средний
Почему после импорта базы из .sql файлов таблицу с 13Гб раздуло до 55Гб?
- 4 подписчика
- 29 окт.
- 577 просмотров
1

ответ
SQL

Простой
Почему INSERT присваивает только один символ вместо полного значения?
- 2 подписчика
- 29 окт.
- 175 просмотров
2

ответа
SQL

Простой
Правильно ли написан SQL-запрос для вывода клиентов с действующими (непогашенными) кредитами?
- 1 подписчик
- 19 окт.
- 211 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 240 просмотров
4

ответа
Python

+2 ещё

Средний
При подключении к бд MySQL через SSH из Python появляется ошибка, а через DBeaver всё чётко. В чём дело?
- 2 подписчика
- 29 сент.
- 330 просмотров
1

ответ
MySQL

Простой
MySQL JSON_OBJECT Приводит значение к строковому типу, возможно ли это как то обойти?
- 2 подписчика
- 26 сент.
- 125 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 325 просмотров
1

ответ
SQL

+3 ещё

Средний
IIS/Lansweeper сильно тормозит из-за аномального числа логонов, внутренний DDoS?
- 1 подписчик
- 15 сент.
- 101 просмотр
0

ответов
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 400 000 ₽

Сетевой инженер, OpenWrt, Linux

Ростовский завод электроники • Санкт-Петербург

от 20 000 до 60 000 ₽

Зачем гадать?

Сделайте таблицу, заустите запрос на своем реальном железе, со своими настройками
sim3x, интересует опыт других пользователей.

Answer 1 · 2018-07-30 20:53:38

Не важно, сколько в таблице записей вообще. У вас есть условие по пользователю и дате и индекс по этой паре, соотвественно, группировка будет только внутри диапазона дат и по данному пользователю.

Группировка сделана по форматированной дате, вряд ли MariaDB сможет сообразить что упорядочение по дате поможет, так что скорее всего, она сгруппирует это как неупорядоченное множество. Я думаю, если сгруппировать по исходной дате до группировка может быть быстрее - отформатировать можно и потом.

Как альтернатива, проиндексировать форматированную дату

Заполните таблицу примерно похожими по распределению данными и посмотрите план запроса.

Answer 2 · 2018-07-30 19:16:20

Что значит в вашем представлении медленные?
Какое железо?
Какие индексы?

И че гадать-то - нагенерируйте случайных данных и проверьте.

Answer 3 · 2018-07-30 19:41:33

Рано или поздно выборки становятся слишком жирными для построения отчетов/графиков/чего угодно на лету.

Может лучше сразу выбрать что-то более подходящее для этого
https://habr.com/company/oleg-bunin/blog/329062/

Насколько дорогая операция GROUP BY() + SUM()?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт