БД для частых вставок и большого объема данных?

Question

Даша Циклаури @dasha_programmist

ex Software Engineer at Reddit TS/React/GraphQL/Go

БД для частых вставок и большого объема данных?

Подскажите движок для хранения больших объемом ~50ГБ в день. Данные хорошо структурированы (подходят под хранения в таблицах, 7-8 полей), индекс по 1-3 полям (id, дата, id_по_которому_агрегируем).
Есть около 40 миллиардов записей, которые предположительно будут лежать в БД в исходном виде (3 поля), по некоторому запросу будет выбираться подмножество и класться в кэш. Запросов порядка 20-30к в секунду. Исходные данные будут дополняться несколькими колонками (даты, номера) и укладываться в другую БД или таблицу/коллекцию или же модифицировать исходные?
Интересует в первую очередь производительное на вставку решение, которое легко масштабировать (за меньшее кол-во действий ввести в кластер +1 ноду). Во вторую очередь хотелось бы увидеть примеры для Docker Swarm.
Спасибо.
UPD: пример
Исходная таблица 40миллиардов~400 коллекций по 100кк записей типа PrimaryData (если в терминах nosql), по структуре все коллекции одинаковые.
Из исходной выдергиваются данные, дополняются, получаем ExtendedData и вставляются в другую базу. Поиск по второй базе или по ключу (id) или по диапазону дат с агрегацией по полю DataAgg

type PrimaryData struct {
	ID    string `bson:"_id"`  //char(16)
	Data1 int32  `bson:"d1"`
	Data2 int64  `bson:"d2"`
}

type ExtendedData struct {
	ID      string `bson:"_id"` //char(16)
	Data1   int32  `bson:"d1"`
	Data2   int64  `bson:"d2"`
	Data1TS int64  `bson:"d1_ts"`
	Data2TS int64  `bson:"d2_ts"`
	Data3   int64  `bson:"d3"`
	Data4   byte   `bson:d4`
	DataAgg int32  `bson:dagg`
}

Вопрос задан более трёх лет назад
1015 просмотров

8 комментариев

Подписаться 7 Средний 8 комментариев

sim3x @sim3x

По raw data есть запросы с rps 40k?

Написано более трёх лет назад
Даша Циклаури @dasha_programmist Автор вопроса

sim3x, по ним чтение/удаление, но я думаю что там можно кешем простым обойтись, поскольку среди одной коллекции данные берутся случайно

Написано более трёх лет назад
sim3x @sim3x

Даша Циклаури, несколько в другом вопрос

Если ето логи и по ним не нужна мгновенная агрегация, то они масштабируются легко и просто
Те положили логи на диск, а через Х минут их батчем закинули в базу

А вот если по ним нужна мгновенная агрегация и поток запросов делать, то все сложно

Кеширование с радномными запросами не работает - у вас будет лишком много промахов

Написано более трёх лет назад
Даша Циклаури @dasha_programmist Автор вопроса

sim3x, нет, это не логи, это достаточно важные данные (поэтому смотрю варианты с транзакциями), но выборка по ключу/периоду возможна с разумной задержкой (до суток).
Есть список исходных талонов (40ккк), видов талонов около 400-500, его будем даже не в БД хранить, а в файле, поскольку он только на чтение.
Классический запрос:
1) вытащить неиспользуемый талон. Соответственно талоны изначально пакуем рандомно, дальше по каждому ключу "вида" АА, АБ и т.д. тянем из файла по смещению (оно хорошо вычисляется из-за строгой структуры) и записываем в локальную БД смещение для вида минус 1. С этим вроде как всё ок.
2) талон нужно заполнить: дополнить датой и некими числами и записать в БД. Понимаю, что с транзакциями все встанет (но терять нельзя).
Таких запросов десятки тысяч. В будущем очень редко нужно:
1) по номеру талона получить инфу,
2) выдать агрегированную по скажем признаку "точка выдачи талона" информацию за период (агрегации по суткам будем хранить в отдельном хранилище).
В каждой точке (3к штук) выдаче талонов промежуточный комп не поставить (проблемы администрирования, обновления, доступности информации в каждый момент времени).

Написано более трёх лет назад
sim3x @sim3x

Даша Циклаури,
1. Если у вас есть очень хороший плюсовик, то такое можно проворачивать. Если нет - то ногу вы отстрелите сразу. И такое решение масштабируется с трудом (даже при хорошем плюсовике)

Зачем делать файл, если судя по всему, талон формируется не рандомно?

2. На хорошем железе 30к rps не встанет колом

Вам нужен толковый архитектор
Система не выглядит сложной, но судя по всему в ТЗ что-то дикое написано

Написано более трёх лет назад
Даша Циклаури @dasha_programmist Автор вопроса

sim3x,
1. Плюсовик есть, он собственно и генерирует этот файл с талонами, их значения не рандомны, их порядок рандомный (поэтому мы можем идти для каждого вида с начала или конца очереди и записывать очередной индекс). Масштабировать этот файл не нужно или нужно будет достаточно редко (раз в несколько месяцев), поскольку именно этот файл как-то там сертифицируется после генерации. Далее этот файл после сертификации передается на сервер (с флешки/жестким диском - не важно), важно сократить время подготовки к работе с ним. То есть 2 варианта: работать с файлом напрямую или перелопатить 40 ярдов в БД (что по времени там тоже очень долго).

2. Хорошее железо - понятие размытое. Процы, память обеспечим. Как быть с винтами которые придется чуть ли не каждую неделю (по 240-480 Гб) доподключать?(амазоном заказчик не хочется пользоваться) До 10 машин администрировать еще можно, но больше уже становится адово. Сейчас взяли на хеснере 9 виртуалок не очень мощных чтобы посмотреть как будет кухня себя вести под нагрузкой. Железки проблемны администрированием - нужно делать свою СХД.

Команда у нас очень маленькая 3 человека: с++, го, js/nodejs. Есть опыт работы со свармом в бою. Но настройка того же кластера монги/кассандры (с кошем пока не понятно как персистентно хранить, Flocker?) может вызвать проблемы с пониманием системы с случае отказа одной из нод.
Рассматриваем вариант написать свои воркеры с embedded boltdb/tiedot на го. Но тут не уложимся в сроки для реализации репликации.

Написано более трёх лет назад
sim3x @sim3x

Даша Циклаури,
1. А еще проще процедурно генерировать талоны
Я намекаю, что проблемы с такого рода операциями заканчиваются крашем всей ОС

2. Массивы по 1Пб уже не фантастика. Конкретику по железу всегда лучше смотреть на тестах. Администрирования парка с помощью ансибла не составляет проблем

Монгу не берите

Написано более трёх лет назад
Даша Циклаури @dasha_programmist Автор вопроса

sim3x, спасибо большое
по п1) обсудили, действительно есть наработки для процедурной генерации в лайве, ну и его же использовать для генерации файла в сертификационные органы, поэтому думаю идея ляжет в основу первой части

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 4 часа назад
- 95 просмотров
1

ответ
Docker

Средний
Как использование переменные в Entrypoint Dockerfile?
- 1 подписчик
- 17 окт.
- 73 просмотра
1

ответ
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 183 просмотра
4

ответа
Nginx

+1 ещё

Простой
Как оптимизировать скорость загрузки шаблонов с изображениями docker nginx laravel?
- 3 подписчика
- 09 окт.
- 244 просмотра
1

ответ
Laravel

+1 ещё

Простой
Если один контейнер создает файл laravel-2025-01-01.log топ почему другой контейнер не может получить доступ?
- 1 подписчик
- 08 окт.
- 184 просмотра
0

ответов
Nginx

+2 ещё

Средний
Какие порты пробрасывать в настройках php5.6-fpm в контейнере Docker-а?
- 1 подписчик
- 28 сент.
- 149 просмотров
1

ответ
Laravel

+3 ещё

Простой
Почему php-fpm на все запросы выдает 404?
- 1 подписчик
- 26 сент.
- 304 просмотра
0

ответов
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 306 просмотров
1

ответ
Docker

Простой
Почему docker не видит .env?
- 1 подписчик
- 11 сент.
- 193 просмотра
2

ответа
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 432 просмотра
1

ответ
Показать ещё Загружается…

Системный аналитик

Data World • Москва

от 180 000 до 210 000 ₽

Golang-разработчик (CRM)

IT-hunter

от 300 000 ₽

Начальник отдела эксплуатации инфраструктуры и цифровых сервисов

Мособлгаз • Москва

До 240 000 ₽

sim3x, по ним чтение/удаление, но я думаю что там можно кешем простым обойтись, поскольку среди одной коллекции данные берутся случайно
Даша Циклаури, несколько в другом вопрос

Если ето логи и по ним не нужна мгновенная агрегация, то они масштабируются легко и просто
Те положили логи на диск, а через Х минут их батчем закинули в базу

А вот если по ним нужна мгновенная агрегация и поток запросов делать, то все сложно

Кеширование с радномными запросами не работает - у вас будет лишком много промахов
Даша Циклаури,
1. Если у вас есть очень хороший плюсовик, то такое можно проворачивать. Если нет - то ногу вы отстрелите сразу. И такое решение масштабируется с трудом (даже при хорошем плюсовике)

Зачем делать файл, если судя по всему, талон формируется не рандомно?

2. На хорошем железе 30к rps не встанет колом

Вам нужен толковый архитектор
Система не выглядит сложной, но судя по всему в ТЗ что-то дикое написано
Даша Циклаури,
1. А еще проще процедурно генерировать талоны
Я намекаю, что проблемы с такого рода операциями заканчиваются крашем всей ОС

2. Массивы по 1Пб уже не фантастика. Конкретику по железу всегда лучше смотреть на тестах. Администрирования парка с помощью ансибла не составляет проблем

Монгу не берите
sim3x, спасибо большое
по п1) обсудили, действительно есть наработки для процедурной генерации в лайве, ну и его же использовать для генерации файла в сертификационные органы, поэтому думаю идея ляжет в основу первой части

Answer 1 · 2018-04-18 19:02:56

xmoonlight @xmoonlight

https://sitecoder.blogspot.com

TimescaleDB

Ответ написан более трёх лет назад

1 комментарий

БД для частых вставок и большого объема данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт