Какая БД лучше всего делает аггрегации?

Question

yiicoder @yiicoder

Какая БД лучше всего делает аггрегации?

Задача - обрабатывать сырые данные статистики.
Запросы простые аггрегации - Select SUM/AVG from group by (AGE,SEX,DAY,SOURCE). (обычно в group by параметров 10-20 для промежуточных данных). Агрегированные данные кладутся в отдельную таблицу и уже по ней делается поиск с WHERE в котором теже самые 10-20 параметров.

Сейчас всем этим делом занимается mongodb(aggregation framework), не нравится производительность. (Индексы все стоят, в память влезают, оптимизировать mongo уже явно дальше не куда)
Может есть БД более заточенная под такие задачи?

Вопрос задан более трёх лет назад
566 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Stepik

PRO C#. Базы данных

2 месяца

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- 10 июл.
- 220 просмотров
1

ответ
PostgreSQL

+1 ещё

Средний
Sqlx + pgx — выборка по набору пар значений столбцов без танцев с бубном?
- 1 подписчик
- 07 июл.
- 77 просмотров
1

ответ
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 303 просмотра
3

ответа
MySQL

Простой
Странное поведение COALESCE в SQL запросе?
- 1 подписчик
- 15 мая
- 128 просмотров
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 105 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 350 просмотров
2

ответа
PostgreSQL

Простой
Запрос с 1 условием для выбора источника данных?
- 1 подписчик
- 08 апр.
- 169 просмотров
2

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 288 просмотров
3

ответа
PostgreSQL

+1 ещё

Средний
Как в PostgreSQL организовать синхронизацию данных между геораспределенными копиями?
- 1 подписчик
- 25 мар.
- 331 просмотр
3

ответа
MySQL

+1 ещё

Простой
Как поднять контейнер mysql через wsl?
- 1 подписчик
- 21 мар.
- 362 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2015-09-03 14:23:07

ElasticSearch
https://www.elastic.co/guide/en/elasticsearch/refe...
https://www.elastic.co/guide/en/elasticsearch/refe...

По собственному опыту скажу, что очень хорошо справляется. Сейчас имеется маленький кластер с 300+ гб событий статистики, все очень шустро работает.

Вот еще несколько ссылок, дабы избежать распространенных ошибок в настройке кластера.
radar.oreilly.com/2015/04/10-elasticsearch-metrics...
https://www.loggly.com/blog/nine-tips-configuring-...
https://www.elastic.co/blog/found-optimizing-elast...

Наткнулся как раз на камень, описывающийся в этой статье:
https://www.elastic.co/blog/support-in-the-wild-my...
При настройке маппинга индекса, указывай параметр для не анализируемых полей:
"doc_values" : true

Answer 2 · 2015-09-09 13:22:22

Как вариант, можно использовать Impala, Hive on Tez с Hadoop кластером. Масштабируемость будет 100%, та же CDH или HDP достаточно легко разворачивается.
Если у Вас много денег и CPU не проблема, можно использоваться Spark SQL поверх того же Hive.

Какая БД лучше всего делает аггрегации?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт