Какую выбрать БД для больших объемов?

Question

Hugs @Hugs

Какую выбрать БД для больших объемов?

Доброго времени суток.
Есть большие объемы данных, ~40-45ГБ сутки, 25-30к строк в секунду, запись идет непрерывно.
Конечный объем может насчитывать 50-70ТБ.
Формат данных:
int timestamp
int value1
int value2
int value3

Выборки в основном имеют вид timestamp > date_1 && timestamp < date_2 && data == value*
Какую БД посоветуете? На какой отклик можно рассчитывать ?
Очень приятным бонусом будет если БД умеет сжимать данные.

Добавлю второй вариант, какой есть метод компрессии с так называемым свободным seek по файлу.

Вопрос задан более трёх лет назад
1893 просмотра

1 комментарий

Подписаться 14 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 307 просмотров
3

ответа
Базы данных

Простой
Как решить проблему когда две запущенные транзакции изменяют одну и ту же строку, но одна из транзакций видит старые данные а не новые?
- 1 подписчик
- 28 мар.
- 296 просмотров
3

ответа
Базы данных

Простой
Когда использовать рекурсивное удаление?
- 1 подписчик
- 10 мар.
- 173 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Где взять актуальный список городов в странах с таймзонами на русском?
- 1 подписчик
- 21 дек. 2025
- 169 просмотров
1

ответ
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб. 2025
- 120 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб. 2025
- 306 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб. 2025
- 244 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 251 просмотр
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт. 2025
- 285 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент. 2025
- 386 просмотров
1

ответ
Показать ещё Загружается…

Судя по описанию задачи, речь о СУБД для временных серий, TSDB. В интернете можно найти немало информации по теме.

Answer 1 · 2016-05-18 20:22:52

Складывайте в файлы по часам (например) - новый час - новый файл. Далее пакуйте.
На timestamp можно отвести 2 байта (т.к. в пределах часа). Посмотрите может value можно уменьшить.
Даже если на запись 16 байт, то современный HDD (150Mb/s) сможет сохранять ~9млн записей в сек (с вашими 30к справится)
Останется только сделать тулзу которая будет по вашим условиям доставать данные.

Файлы можно хранить на диске, можно в файловой БД, можно в GridFS которая будет шардить их по кластеру.

Answer 2 · 2016-05-19 02:55:10

evnuh @evnuh

Поиск Гугл помог мне, впусти и ты его в свой дом

Посмотрите на sophia.systems, её использует Tarantool как один из движков.

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2016-05-19 09:01:15

InfluxDB - специализированная именно под такую задачу.

Yandex Elliptics (в настоящее время легко компилируется только под Ubuntu 14.04 и соответствующее поколение Debian) - не БД, а распределенное хранилище DHT. Зато умеет само масштабироваться и реплицироваться и восстанавливаться. Ваше дело будет только подключать новые сервера к нему (или диски на сервера).

Answer 4 · 2016-05-25 19:07:40

Вам хадуп кластер разворачивать необходимо и архитектуру конструировать на основе доставки сообщений с бд посредником, а все ваши терабайты в логах gzip хранить ну или на кластере в hive. Короче вопрос этот не для тостера. Вам во фриланс платформу за devops'ами нужно, т.к опыта у Вас нет по ходу с такими вопросами.

Какую выбрать БД для больших объемов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт