Какую БД использовать для timeseries данных?

Question

devalone @devalone

̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻̻

Какую БД использовать для timeseries данных?

Дано:

- Несколько таблиц вроде users, stories, comments, где в каждой поля вроде id, rating, text, is_deleted и т.д.
- Много данных, >145 лямов в comments, > 7 лямов в stories и больше 2.5 лямов в users
- Для каждого столбца таблица с версиями, например, у comments есть столбец rating и для хранения предыдущих значений имеется таблица comment_rating_versions следующего вида:

item_id uint64
timestamp int64
value int32

Также есть версии текстовых и булевых полей, такие же, только тип value отличается.

Всё это крутится на postgres'е.

Задача:

делать эффективно выборки по данным(как по таблицам users, stories, comments, так и по таблицам версий), строить графики, распределения по дням/часам и делать это всё эффективно.

Проблема:

postgres работает с такими данными ооочень медленно, например, распределение всех комментариев по дням строится больше 8 часов!

Вопрос:

Есть ли у кого опыт работы с подобными timeseries данными и какую БД можете посоветовать? Быстрый гуглинг намекает, что есть influxdb, clickhouse от Яндекса и подобные. Или может быть мне подойдёт что-то вроде pipelinedb для postgres'а?

Вопрос задан более трёх лет назад
498 просмотров

2 комментария

Подписаться 3 Средний 2 комментария

Пригласить эксперта

Ответы на вопрос 4

7 комментариев

devalone @devalone Автор вопроса

исторические данные хранятся вместе с актуальными

А надо как? Актуальные в постгресе, историю в другой, более подходящей БД?
clickhouse да, но работает хорошо только при большом потоке входящих данных

а если их мало, clickhouse станет не эффективным? Вроде мои данные чем-то похожи на те, что собирает Яндекс метрика.
Можно подумать, например, про Cassandra.

В чём преимущества перед постгресом в моём случае?

Написано более трёх лет назад
Иван Шумов @inoise

devalone, я советовал выше прочитать про CQRS и Event Sourcing. Clickhouse работает нормально на миллионе метрик в секунду, как правило. Но еще раз - он тоже для метрик сделан, хотя его и используют иногда для отчетов.

В чём преимущества перед постгресом в моём случае?

Идем и читаем про то что такое колоночные базы данных и в чем их преимущество

Написано более трёх лет назад
mayton2019 @mayton2019

Кассандра в данном случае не подходит т.к. класс ДБ другой. Тайм-серии этоб больше - хранилище и аналитика и диски. Cassandra - OLTP и in-memory dbms.

Написано более трёх лет назад
Иван Шумов @inoise

mayton2019, она достигает скорости за счет горизонтального масштабирования по нодам, а для OLAP там есть SPARK

Написано более трёх лет назад
mayton2019 @mayton2019

Иван Шумов, извините. Мне кажется вы путаете OLTP и OLAP.

Написано более трёх лет назад
Иван Шумов @inoise

mayton2019, не путаю) Дело в том что Cassandra очень хитрая - она не ACID, а BASE, но при этом OLAP достигается при наличии Spark. Без Spark можно с ней оперировать как OLTP. В итоге, на самом деле, там нет ни первого, ни второго из коробки

Написано более трёх лет назад
mayton2019 @mayton2019

Я думаю что вы - сильно заблуждаетесь. Почитайте сравнение Кассандры и одной из тайм-серийных двигателей и увидьте что это все очень разное https://db-engines.com/en/system/Cassandra%3BInfluxDB

Проводить аналогии на основании хитрости или на основании того что что-то там совместимо со Spark - это вообще большая натяжка. Почти 100% этих систем совместимы с jdbc как с основным драйвером взаимодействия с Java но родственность с JDBC их не делает более близкими по назначению.

Написано более трёх лет назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 5 подписчиков
- 12 авг.
- 989 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг.
- 277 просмотров
3

ответа
C#

+1 ещё

Простой
Как спроектировать домены?
- 3 подписчика
- 26 июл.
- 162 просмотра
0

ответов
Проектирование программного обеспечения

Простой
Как общаются микросервисы в реальных проектах?
- 2 подписчика
- 13 июл.
- 6878 просмотров
5

ответов
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 79 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 163 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4811 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 378 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 207 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 142 просмотра
1

ответ
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Добавьте новое поле в комментарий в вите инта отвечающий за день его создания от 0 года (dday) и комплексный индекс на основе dday и dtime desc. Тогда все запросы отвечающие за расспределение комментариев по дням будут считаться намного быстрее.
Максим Б, ну, это решение только одной проблемы, всё остальное так и останется медленным.

Answer 1 · 2020-01-15 14:51:09

то что указано это не timeseries. timeseries базы хранятся как key-value storage с небольшими объемами на item.Основное применение - метрики с IoT устройств

на вид очевидные проблемы:
- исторические данные хранятся вместе с актуальными (никто не слышал про CQRS или Event Sourcing)
- никто не думал про аналитику и колоночные базы данных (influxdb это time series и это не про ваш случай, clickhouse да, но работает хорошо только при большом потоке входящих данных). Можно подумать, например, про Cassandra.

Answer 2 · 2020-01-15 16:10:16

Для postgres подойдет timescalesb. Это плагин, основная его задача - автоматизация разбиения по партициям. Посмотрите доки https://www.timescale.com/

Answer 3 · 2020-01-15 16:14:17

Автор очень быстро отбросил Postgres. Но я хочу спросить были ли исследованы все возможности? Например TimescaleDb.

Answer 4 · 2020-01-16 02:00:55

influxDB больше подходит для хранения числовых метрик, чем строк, и уж тем более, чем комментариев. В этом она одна из лучших. И выборки по таблицам, там нет, даже собственно таблиц с колонками нет, есть метрики, которые хранятся скорее в виде объектов. Вот хранить данные по нагрузке,трафику, другие числа и иногда строки - это да.

Но если вам нужны выборки по таблицам, оставайтесь в пределах SQL баз.

Какую БД использовать для timeseries данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт