dmitriylanets
@dmitriylanets
веб-разработчик

Как максимально сжимать данных в clickhouse?

Собираюсь писать много данных в таблицу типа лога (50млн записей в день, строка примерно 160 байт), есть два варианта:
1. писать всю строку и в будущем может понадобиться любая информация
2. писать только нужные данные, на тек. момент известно о двух полях которые нужно логировать, но в будущем понадобится может все.

Запись 1млн строк в лог по первому варианту в clickhouse занимает примерно 50мб , то есть 50млн в день это 2,4 гб в день.

Хотелось бы совета кто сталкивался с таким объемами, как максимально сжимать на уровне clickhouse?
  • Вопрос задан
  • 138 просмотров
Пригласить эксперта
Ответы на вопрос 1
mayton2019
@mayton2019
Bigdata Engineer
В парадигме современной BigData, вы должны писать все что приходит на вход.
Как это там обзывают.... ELT (Extract, Load, Transform)
Никто не знает наперед какие данные понядоабятся - поэтому фиксируйте весь raw
трафик. Потом - отфильтруете. Построете материализованные views. Но главное что данные
будут.

Учитывая что clickhouse - column oriented - безразлично 2 поля из 2 выбирать или
2 поля из 2000.

Если хранилище у вас все таки переполнится - (со скоростью 2.5 Гб в день) то тогда уже почистите те
колонки которые стали объективно не нужны после например пары месяцев эксплуатации.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы