Большая статистика из таблиц. Как правильно считать данные в БД, как вы это делаете?

Question

dimonchu @dimonchu

Большая статистика из таблиц. Как правильно считать данные в БД, как вы это делаете?

Как правильно проектировать статистику чего-то?
Считать БД можно/нужно? Или лучше вся статистика должна быть уже обработана, и просто лежать в БД?
Имею ввиду всякие COUNT, AVG, SUM и так дальше, на стороне БД. Либо делать пред-обработку сразу по поступлению данных?
Адекватно ли будет это все считать силами самой БД в реальном времени, или это глупый подход?
Пускай мы должны работать с 3 таблицами(Joins + subquery), которые выводят результат в 100 строк, и в каждой строке по 10 колонок. Все 10 колонок это данные операторов агрегации.
Сами таблицы в себе вмещают до 100к строк данных каждая.

Вопрос задан более трёх лет назад
386 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 3

2 комментария

5 комментариев

dimonchu @dimonchu Автор вопроса

У вас на любой чих идёт смена технологий?

Написано более трёх лет назад
Dimonchik @dimonchik2013

какая смена? в clickhouse UPDATE / DEL отсутствует / кривой

примерно как Mysql / postgre для OLAP

Написано более трёх лет назад
dimonchu @dimonchu Автор вопроса

dimonchik2013, кликхаус разве не отдельная СУБД? ;)

Написано более трёх лет назад
Dimonchik @dimonchik2013

dimonchu, вы предлагаете ее заюзать для CRUD операций ?

Написано более трёх лет назад
dimonchu @dimonchu Автор вопроса

dimonchik2013, я б её вообще не использовал в моем случае) потому что для выборки статистики это через чур. То, что она работает при больших масивах данных, хорошо известно. Но следует ли использовать отдельную СУБД для решения локальной задачи? - нет, тем более, что для неё тоже нужны выделять ресурсы. Это не рационально.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 74 просмотра
1

ответ
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 128 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 105 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 350 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 169 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 331 просмотр
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
PostgreSQL

Простой
Как оптимизировать запрос с фильтром?
- 2 подписчика
- 13 мар.
- 341 просмотр
1

ответ
PostgreSQL

+1 ещё

Простой
Как работает Housekeeper в Zabbix?
- 1 подписчик
- 07 мар.
- 346 просмотров
3

ответа
MySQL

+1 ещё

Простой
Как удалить число содержащееся в ячейке таблицы бд Mysql среди чисел через запятую, если таких чисел 2 или более удалить только первое найденое?
- 1 подписчик
- 19 февр.
- 246 просмотров
1

ответ
Показать ещё Загружается…

Ниже уже ответили. Проверьте на живых данных. Если не устраивает агрегируйте данные и заносите во временную таблицу.

Кроме этого в отчетных системах есть кэширование, например в SSRS можно выставить время генерации отчетов и условия отдачи готовых отчетов из кэша.

Answer 1 · 2019-11-25 18:07:45

Всё зависит от конкретного случая, универсального ответа на ваш вопрос нет. Как человек, более близкий к админству, могу сказать, что на объёмах в сотни тысяч строк, то есть вполне помещающихся в оперативную память, вполне можно не заморачиваться преждевременной оптимизацией, главное, чтобы в таблицах были нужные индексы.

Answer 2 · 2019-11-25 18:25:09

Create Event
Или, периодически, через cron и микросервис: делаем независимые промежуточные расчёты - асинхронно, затем - итоговый из промежуточных.

Answer 3 · 2019-11-25 18:30:07

Dimonchik @dimonchik2013

non progredi est regredi

Clickhouse

Ответ написан более трёх лет назад

5 комментариев

Answer 4 · 2019-11-26 05:26:08

Всё зависит от конкретной задачи.
Одни статистики считаются сразу, если они выполняются редко и/или быстро.
Если статистика тяжело считается, но её актуальность суточная, то выбирается время наименьшей активности юзеров. У нас это 4 часа утра в текущем регионе (+ в выходные ещё меньше). В это время запускается и считается тяжёлая статистика. Результаты отправляются в отдельную таблицу, откуда эти данные потом быстро забираются. Либо сразу подготавливается html-страница с отчётом.
Примерно то же самое, если актуальность в несколько часов или минут.

100к строк в таблице - это вообще ни о чём. Крохотулечная табличка. Тут всё зависит от самого запроса, как он написан.

Большая статистика из таблиц. Как правильно считать данные в БД, как вы это делаете?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт