Как ускорить запросы с group by в ClickHouse?

Question

DamskiyUgodnik @DamskiyUgodnik

Как ускорить запросы с group by в ClickHouse?

Решил на новом проекте попробовать использовать ClickHouse (до этого такого опыта не было). И столкнулся с проблемой долгой группировки (ну или запросов с группировкой в целом).

Что имеем:
Необходимо хранить данные об изменениях элементов. Есть id элемента и к примеру 5 значений. Сейчас данные идут в postgresql с "предобработкой" (проверяется предыдущее значение элемента, если оно отличается от текущего, в базу добавляется текущее значение + в отдельную колонку значение дельты ну и время фиксации изменения).

Далее данные скриптом "переливаются" в ClickHouse для построения аналитических отчётов (ну по крайней мере так планируется делать).

По данным:

Планируемое количество элементов ~ 150 млн
Количество изменений в день ~ 15 млн записей (примерно 200мб)
Данные планируется хранить за 3-5 лет, но 95% отчётов будет строиться за последние полгода. Т.е. ~ 5млд записей на год и ~ 70gb по размеру таблицы

Требования к отчётам:

Хочется делать группировки по дням (периодам, например неделя, месяц) и элементам. Например, получить 100 элементов, у которых самая большая сумма дельты или самое большое количество изменений за последние 7 дней.
Отчёт должен генерироваться не дольше секунды

Текущие показатели:
Пример запроса

SELECT count(*) as m, sum(delta_1) as delta_sum FROM change_history GROUP BY id_element ORDER BY m DESC

Сейчас в тестовой базе в 88 млн строк (около 900мб по размеру таблицы)
ClickHouse из коробки, никаких настроек не производилось
Время выполнения - 10-12 сек в первый раз и 3-4 сек при повторных запросах

По железу:
Тестовый стенд с убунтой

64гб оперативки
2x Intel Xeon E5-2650
Какой-то обычный hdd sata 7200 на 8тб

Структура таблицы в ClickHouse:

create table qty_history
(
   dt            DateTime('Europe/Moscow'),  
   id_element    UInt64,
   val_1         UInt64,
   delta_1       UInt64,
   INDEX indx_id_element (id_element) TYPE minmax GRANULARITY 32
)
engine = MergeTree()
ORDER BY (id_element,dt)
PARTITION BY toYYYYMMDD(toDate(dt))

Что интересует:
В какую сторону рыть в плане производительности? точнее с чего начинать сначала? Инфы по ClickHouse много, и чтобы всё перелопатить надо время, а принимать решение вписываться в ClickHouse надо сейчас и в данный момент не понятно, можно ли это как-то оптимизировать без лютого "масштабирования" по железу.

Сейчас план такой:

Попробовать поиграться с индексами и структурой
Попробовать другие движки таблиц
Попробовать загнать данные в память, чтобы они читались из оперативки а не с диска (но вроде как при первом изучение так нельзя)
Попробовать на другом железе с более быстрыми дисками (ssd, raid) (есть подозрение что всё упирается в диск, т.к. процессоры вообще не загружаются при работе)
Попробовать собрать кластер, вроде разработчики обещают почти кратное ускорение, но в это сходу не хочется вписываться, т.к. выглядит как какая-то длинная история

Вопрос задан более трёх лет назад
715 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее
Skillbox

Профессия Data Analyst

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 184 просмотра
4

ответа
ClickHouse

Средний
Почему Clickhouse читает много строк?
- 1 подписчик
- 17 июн.
- 153 просмотра
2

ответа
Logstash

+1 ещё

Средний
Возможно ли сделать систему логирования из ClickHouse, Logstash и Grafana?
- 1 подписчик
- 26 янв.
- 192 просмотра
3

ответа
DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 95 просмотров
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 128 просмотров
2

ответа
Docker

+2 ещё

Средний
Почему не могу подключиться к Clickhouse из интерфейса PHPStorm?
- 1 подписчик
- 21 нояб. 2024
- 177 просмотров
1

ответ
Docker

+3 ещё

Средний
Ошибка с неизвестной таймзоной?
- 1 подписчик
- 19 нояб. 2024
- 435 просмотров
3

ответа
WordPress

+2 ещё

Простой
Как перенаправить все select запросы из wp mysql в clickhouse?
- 1 подписчик
- более года назад
- 153 просмотра
0

ответов
PHP

+4 ещё

Средний
Как организовать журнал событий в распределённой системе правильно?
- 2 подписчика
- более года назад
- 262 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 271 просмотр
1

ответ
Показать ещё Загружается…

Big Data / ETL Engineer

Oracul Analytics

от 300 000 до 450 000 ₽

Аналитик 1С (телеком)

LIAN • Москва

от 270 000 до 300 000 ₽

Продуктовый дизайнер

Юзтех

До 225 000 ₽

Answer 1 · 2022-08-07 16:30:01

Время выполнения - 10-12 сек в первый раз и 3-4 сек при повторных запросах

В первй раз идет "прогрев" кеша диска, поэтому долго. Повторный запрос в 3-4 секунды наверное вполне нормальный, т.к. скорее всего необходимо обработать большое кол-во данных (но, конечно, нужно смотреть план, чтобы понимать сколько он обработал).
Решение стандартное - стройте проекции. Агрегирующие с группировкой по дням, для группировок по дням, неделям, месяцам. И top-проекции для "получить 100 элементов, у которых самая большая сумма". Но нужно посмотреть как это делать, так как я больше работал с другой колоночной СУБД.

Answer 2 · 2022-08-07 16:31:12

Да ничего тут нельзя особо сделать. 10 секунд - холодный запуск группировки по 88 млн строк - это вполне себе хорошая цифра. Сомнительно что железо выдавит из себя больше. Ведь так или иначе нужно эти 88 млн пересчитать и даже будь это все в памяти - все равно обойти каждую ячейку. А дальше дело будет только хуже. Ведь табличка растет.

Есть техники микро-батчинга когда большая задача разбиватеся на порции. Например у тебя есть дневной партишен на 15 млн. Делишь его на часовые. Получается по 625 тыщ строк. Уже лучше.

Делаешь некую кумулятивную табличку. Типа

create table charge_cumulative(
  id long,
  cnt_cumulative long,
  delta_sum_cumulative long
)

Ну и на каждый микро-батч добавляешь к ней значения count, delta_sum. У тебя вроде удачно получается что можно только складывать.

Как ускорить запросы с group by в ClickHouse?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт