Ответы пользователя mayton2019 по тегу «ClickHouse»

Задать вопрос

Ответы пользователя по тегу ClickHouse

Возможно ли сделать систему логирования из ClickHouse, Logstash и Grafana?

mayton2019 @mayton2019
Bigdata Engineer

Хочу напомнить что такие системы как ClickHouse ориентированы не на одиночные события
а на стриминг. Тоесть вы должны не просто логгировать а желательно просто потоком лить
много событий. Батч-режим вставки в кликхаус - это и есть ее оптимальный режим.

Вставка по 1 строке например раз в несколько секунд с фиксацией - будет не благоприятным
режимом работы для кликхауса. И наверное с плохим КПД. Подумайте о том что может
стоит все таки писать логи классическим способом и по истечении времени например
сбрасывать пачку к аналитические хранилища.

Ответ написан 26 янв.

10 комментариев

10 комментариев
Как организовать журнал событий в распределённой системе правильно?

mayton2019 @mayton2019
Bigdata Engineer

В данном задании непонятно насколько остро стоит необходимость именно в MQ системе.

Можно начать просто с централизованного сбора логов. Мне кажется это проще
чем строить кафку. Кроме того логгирование работает всегда, пока есть файловая
система. А Кафка может быть недоступна какое-то количество минут или секунд в году.
И вам надо будет думать что делать с событиями которые не ушли в Кафку. Блокировать.
Дропать события. Или искать резервное мето куда форварднуть.

Ответ написан более года назад

3 комментария

3 комментария
Как работать с ReplacingMergeTree в Clickhouse?
mayton2019 @mayton2019
Bigdata Engineer
Я не специалист в кликхаусе, но если ты указываешь

ENGINE = ReplacingMergeTree Order by (....)

то это (скорее всего) включает некоторые механизмы дедубликации. Почитай вот тут пишут
https://clickhouse.com/docs/en/engines/table-engin...

Выше ты писал

должны убраться дублирующиеся записи, но их нет.

это нужно доказать отдельным SQL запросом. Я думаю что ты скорее всего ошибся.
Проверь.

Ответ написан более года назад

Комментировать
Комментировать
Как clickhouse использует ОЗУ при обработке запроса?

mayton2019 @mayton2019
Bigdata Engineer

Кликхаус относится к классу column-oriented dbms. Это означает что data-row как таковой отсуствует.
Строк нет. Но есть столбцы которые хранятся физически консолидировано. И когда ты указываешь
SELECT * то это заставляет кликхаус сделать гораздо больше действий чем надо на самом деле. В
силу этой колоночатой организации. Сами строки - виртуальны и чтобы их сформировать кликхаус
должен вычитать физических данных гораздо больше чем реляционка. Столбец - больше чем ячейка.

Чтоб такая система работала эффективно ты должен ее грузить аналитическими запросами типа

select avg(amount) from my_table;
Тогда кликхаус сработает быстрее чем Oracle или PG. В силу этой особенности формата.

А то что ты делаешь - экспорт во внешние файлы лучше вообще не делать. Или делать редко
или как-то по другому. Явно это не сильная сторона такой системы.

Ответ написан более двух лет назад

2 комментария

2 комментария
Как максимально сжимать данных в clickhouse?

mayton2019 @mayton2019
Bigdata Engineer

В парадигме современной BigData, вы должны писать все что приходит на вход.
Как это там обзывают.... ELT (Extract, Load, Transform)
Никто не знает наперед какие данные понядоабятся - поэтому фиксируйте весь raw
трафик. Потом - отфильтруете. Построете материализованные views. Но главное что данные
будут.

Учитывая что clickhouse - column oriented - безразлично 2 поля из 2 выбирать или
2 поля из 2000.

Если хранилище у вас все таки переполнится - (со скоростью 2.5 Гб в день) то тогда уже почистите те
колонки которые стали объективно не нужны после например пары месяцев эксплуатации.

Ответ написан более двух лет назад

Комментировать

Комментировать
Как ускорить запросы с group by в ClickHouse?
mayton2019 @mayton2019
Bigdata Engineer
Да ничего тут нельзя особо сделать. 10 секунд - холодный запуск группировки по 88 млн строк - это вполне себе хорошая цифра. Сомнительно что железо выдавит из себя больше. Ведь так или иначе нужно эти 88 млн пересчитать и даже будь это все в памяти - все равно обойти каждую ячейку. А дальше дело будет только хуже. Ведь табличка растет.

Есть техники микро-батчинга когда большая задача разбиватеся на порции. Например у тебя есть дневной партишен на 15 млн. Делишь его на часовые. Получается по 625 тыщ строк. Уже лучше.

Делаешь некую кумулятивную табличку. Типа

create table charge_cumulative( id long, cnt_cumulative long, delta_sum_cumulative long )

Ну и на каждый микро-батч добавляешь к ней значения count, delta_sum. У тебя вроде удачно получается что можно только складывать.

Ответ написан более трёх лет назад

Комментировать
Комментировать

Самые активные сегодня

VoidVolker
- 3 ответа
- 0 вопросов
GavriKos
- 2 ответа
- 0 вопросов
Refguser
- 2 ответа
- 0 вопросов
Артем Житник
- 2 ответа
- 0 вопросов
mr_secret
- 2 ответа
- 0 вопросов
Михаил Р.
- 1 ответ
- 0 вопросов

Возможно ли сделать систему логирования из ClickHouse, Logstash и Grafana?

Как организовать журнал событий в распределённой системе правильно?

Как работать с ReplacingMergeTree в Clickhouse?

Как clickhouse использует ОЗУ при обработке запроса?

Как максимально сжимать данных в clickhouse?

Как ускорить запросы с group by в ClickHouse?

Войдите на сайт