Проектирования СУБД для хранения больших объемов?

Question

egorov_a @egorov_a

Проектирования СУБД для хранения больших объемов?

Столкнулся с проблемой проектирования БД для большого массива данных, речь про миллиарды записей(на данный момент 200млн). Стандартные решения на таких объемах начинают деградировать по скорости вставки/чтения(очень важно).
Приемлемое время отклика до 20 сек, конечно чем быстрее - тем лучше.
Данные хранятся в одном ЦОДе. Сейчас 10-50 запросов/сек. В ближайщем будующем около 100запр/сек.

В данный момент используется MongoDB. Стурктура данных выглядит след образом(буду писать в терминах монги) - документе порядка 80 полей, с типом string, datetime, int, float, null, boolean. У записи есть уникальный ключ, с типом string(длиной в 30 символов). Поиск осуществляется по 30 полям и их возможным комбинациям. Необходимо читать в режиме реалтайм и делать всевозможные агрегационные операции с данными. На таких данных очень долго выполняется операция count.

Хотелось бы узнать какие используются подходы для реализации данной задачи?
Услышать хороший совет по организации и структуре данных.

Вопрос задан более трёх лет назад
953 просмотра

11 комментариев

Подписаться 9 Средний 11 комментариев

Иван Шумов @inoise

В каких операциях деградация?

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, долго выполняется группировка по определенным полям.
Например, запрос агрегации - фильтрация выдает ~ 17млн записей(30сек) + операция агрегации, по сути подсчет count для агрегационной группы(40сек).
А то может и дольше.

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, ну так это же аналитика (OLAP) на которую такие базы данных не подходят. Тут лучше применить колоночную базу

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, да уже есть некоторые наработки с комбинацией двух баз OLAP+OLTP.
Хотелось бы услышать какие решения вы использовали в своей практики?

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, разные, в зависимости от задачи. Я в основном по AWS, но если нужен on prem то всегда есть Clickhouse, Cassandra, Snowflake

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, да знаем про такое, пробовали. Для OLTP что используете?

Написано более трёх лет назад
Иван Шумов @inoise

egorov_a, в основном пресловутый MySQL, в клауде Aurora. Если не нужна реляционка то DynamoDB

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Иван Шумов, понятно, спасибо :)

Написано более трёх лет назад
Илья @sarapinit

egorov_a, было бы проще если бы описали сами данные (в терминах реального мира) и типовые запросы к ним. Потому что в большинстве случаев оптимизация идет под конкретный запрос.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

Илья, вся проблема состоит в том что нет конкретных запросов. Сейчас один пользователь хочет фильтровать по атрибуту А1, второй хочет узнать сколько было данных в определенный диапазон(например за последний месяц), другой делает выборку по комбинации полей + дата.
Для других задач нужно агрегировать по определенным правилам, порядка 30 типов различных агрегаций, со всевозможной фильтрацией.

Написано более трёх лет назад
Илья @sarapinit

egorov_a, нет конкретных запросов — нет конкретных решений. Поэтому я и просил описать предметную область. Нужно делать партиции, причем функцию партицирования выбирать с умом. А если не хватает, то шардировать. Для запросов которые не вписываются можно дублировать данные в другую БД. Либо все-таки разделить данные на 2 хранилища: OLTP и OLAP, например держать в Mongo последний месяц, а за все время держать ClickHouse или еще чего. В любом случае нужно сначала отойти от постановки задачи "НАМ ВАЖНО ВСЕ И СРАЗУ" к "У НАС ЕСТЬ ИЕРАРХИЯ ЗАПРОСОВ ПО ВАЖНОСТИ"

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Мидл фронтенд-разработчик

5 месяцев

Далее
Skillbox

Курс Java-разработчик

4 месяца

Далее
MongoDB University

MongoDB Atlas Administrator Path

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 6

3 комментария

egorov_a @egorov_a Автор вопроса

Денормализованная SQL таблица на 80 столбцов покажет хорошую производительность?
Вериться с трудом. Думаю будет производительность близкая к MongoDB.

Написано более трёх лет назад
Олег Фролов @Digiport

Не все же 80 столбцов нужны для поиска. Оставите свои 30 поисковых столбцов столбцами, проиндексировав их вдоль и поперёк, а остальное сверите в JSON и храните в одном мета-поле.

Написано более трёх лет назад
Олег Фролов @Digiport

Не подумайте, что я фанат реляционной модели данных, я наоборот поклонник постреляционных многомерных СУБД. Просто данное заявление сделал в силу того, что некоторое время назад общался с программером из большой компании, который и сказал, что Mongo у них не показала должной призводительности на реалтайме, поэтому они используют реляционных подход. Запросов у них десятки тысяч в секунду...

Написано более трёх лет назад

9 комментариев

egorov_a @egorov_a Автор вопроса

Для современного железа и современного СУБД - это ерунда.

Пожалуйста конкретизируете что вы понимаете под современном железом. Задача стоит с минимальными ресурсами добиться максимально производительности.

Для чтения - индексы.
Для вставки - bulk loading

Конечно, это все давно используется.

Это троллинг?

Нет это не тролинг, речь идет о тяжелых агрегационных запросов для сотем милионов записей. Для обычной операции поиска желаемое время до 5сек

Индексы по полям и комбинациям.

Как говорил раньше индексы есть, как single так и сompound.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Пожалуйста конкретизируете что вы понимаете под современном железом. Задача стоит с минимальными ресурсами добиться максимально производительности.

Не думаю. Тут скорее или исполнитель или заказчик не правильно поняли/сформулировали.
Дело в том, что можно заставить летать хоть и на RapsberryPi, но стоимость разработки будет столь велика, что никакое дешёвое железо не окупится.
проверил тут https://ruweb.net/vds на тарифе KVMz-MINI том, что за 480 рублей в месяц.
У меня прямо сейчас тянет до 5000 запросов к СУБД PostgreSQL в секунду.
Размер СУБД - 50 Г

Написано более трёх лет назад
zavodp @zavodp

egorov_a,

Для чтения - индексы.
Для вставки - bulk loading

Конечно, это все давно используется.

1) Индексы должны быть не от балды, а соответствовать запросам. См. план запроса - а используются ли вооще индексы.
2) Не верю.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Нет это не тролинг, речь идет о тяжелых агрегационных запросов для сотем милионов записей. Для обычной операции поиска желаемое время до 5сек

Агрегацию еще могу поверить.
Но если у вас время простого поиска исчисляется в секундах - что-то вы не так делаете.

См. план запроса.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Как говорил раньше индексы есть, как single так и сompound.

А вот теперь проверяйте - используются ли индексы.
См. план запроса: https://docs.mongodb.com/manual/core/query-plans/

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, план запроса я смотрел - при чтение индексы используются. Оптимизировал некотрые запросы, путем добавления составного индекса.
Дело в том что на каждый запрос фильтрации , по мимо самих данных, необходимо отдавать общий count для всей выборки.

2) Не верю.

ваше право ;)

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
необходимо отдавать общий count для всей выборки.

А это только кэшировать.
Или заранее расчитывать.
С count все СУБД долго работают.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, count кешируется в redis с ttl. Первый запрос все равно выполняется долго.

Или заранее расчитывать.

Как я понимаю это расчет для целевых запросов? Весь массив всевозможных комбинаций входных параметров невозможно покрыть(и это неправильно).

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Как я понимаю это расчет для целевых запросов? Весь массив всевозможных комбинаций входных параметров невозможно покрыть(и это неправильно).

Правильно или не правильно зависит от ваших потребностей.
Если нужно чтобы было очень быстро - то это нормально.

Не обязательно рассчитывать сразу итоговые числа.
Можно рассчитать по частичным срезам, чтобы потом эти данные использовать для итоговых окончательных расчетов.

Написано более трёх лет назад

2 комментария

5 комментариев

egorov_a @egorov_a Автор вопроса

Делали подобное, но со связкой clickhouse + hbase. Работало быстро, но и ресурсов сжирало немерено. Думаю над тем что бы использовать MongoDB как key-value.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
Думаю над тем что бы использовать MongoDB как key-value.

Если у вас по множеству полей выборка, да еще и с агрегацией - то движки key-value плохо с этим работают.

Написано более трёх лет назад
egorov_a @egorov_a Автор вопроса

zavodp, агрегацию и поиск выполнять на OLAP БД, потом лезть в key-value. Это я имел ввиду.

Написано более трёх лет назад
zavodp @zavodp

egorov_a,
агрегацию и поиск выполнять на OLAP БД, потом лезть в key-value. Это я имел ввиду.

А с поиском - OLAP плохо работает.
При этом key-value по индексированным ключам отлично ищет.

Написано более трёх лет назад
Дима @v_m_smith

zavodp, по индексированным ключам все отлично ищут

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

API

+1 ещё

Простой
Точь в точь ли маппятся поля json-сущности на поля в таблицах базы данных?
- 1 подписчик
- 05 июл.
- 236 просмотров
2

ответа
Python

+1 ещё

Простой
Как искать primary в реплике Монги?
- 1 подписчик
- 28 июн.
- 117 просмотров
0

ответов
Проектирование баз данных

Простой
Правильно ли построена ER диаграмма?
- 1 подписчик
- 11 мая
- 261 просмотр
1

ответ
Информационная безопасность

+2 ещё

Простой
Данная схема реализации базы данных подходит под рамки 152-ФЗ?
- 1 подписчик
- 17 апр.
- 555 просмотров
2

ответа
Python

+2 ещё

Простой
Как использовать pymongo асинхронно?
- 1 подписчик
- 14 апр.
- 240 просмотров
2

ответа
PostgreSQL

+1 ещё

Простой
Проектирование БД: чем сейчас люди пользуются?
- 1 подписчик
- 09 апр.
- 483 просмотра
4

ответа
Node.js

+2 ещё

Средний
Почему иногда отваливается volume в mongo docker compose?
- 4 подписчика
- 10 мар.
- 329 просмотров
0

ответов
Проектирование баз данных

Простой
Как лучше сделать базу данных?
- 1 подписчик
- 07 мар.
- 318 просмотров
5

ответов
Проектирование баз данных

Средний
Как спроектировать dwh звезда?
- 1 подписчик
- 05 мар.
- 73 просмотра
1

ответ
Проектирование баз данных

Средний
Выбор между SQL и NoSQL документооринтированной базой данных?
- 2 подписчика
- 01 мар.
- 1004 просмотра
2

ответа
Показать ещё Загружается…

Фронтенд разработчик (Frontend developer)

Айдис

от 100 000 ₽

Fullstack developer (python/react)

Крона Лабс • Екатеринбург

от 200 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Иван Шумов, долго выполняется группировка по определенным полям.
Например, запрос агрегации - фильтрация выдает ~ 17млн записей(30сек) + операция агрегации, по сути подсчет count для агрегационной группы(40сек).
А то может и дольше.
egorov_a, ну так это же аналитика (OLAP) на которую такие базы данных не подходят. Тут лучше применить колоночную базу
Иван Шумов, да уже есть некоторые наработки с комбинацией двух баз OLAP+OLTP.
Хотелось бы услышать какие решения вы использовали в своей практики?
egorov_a, разные, в зависимости от задачи. Я в основном по AWS, но если нужен on prem то всегда есть Clickhouse, Cassandra, Snowflake
Иван Шумов, да знаем про такое, пробовали. Для OLTP что используете?
egorov_a, в основном пресловутый MySQL, в клауде Aurora. Если не нужна реляционка то DynamoDB
egorov_a, было бы проще если бы описали сами данные (в терминах реального мира) и типовые запросы к ним. Потому что в большинстве случаев оптимизация идет под конкретный запрос.
Илья, вся проблема состоит в том что нет конкретных запросов. Сейчас один пользователь хочет фильтровать по атрибуту А1, второй хочет узнать сколько было данных в определенный диапазон(например за последний месяц), другой делает выборку по комбинации полей + дата.
Для других задач нужно агрегировать по определенным правилам, порядка 30 типов различных агрегаций, со всевозможной фильтрацией.
egorov_a, нет конкретных запросов — нет конкретных решений. Поэтому я и просил описать предметную область. Нужно делать партиции, причем функцию партицирования выбирать с умом. А если не хватает, то шардировать. Для запросов которые не вписываются можно дублировать данные в другую БД. Либо все-таки разделить данные на 2 хранилища: OLTP и OLAP, например держать в Mongo последний месяц, а за все время держать ClickHouse или еще чего. В любом случае нужно сначала отойти от постановки задачи "НАМ ВАЖНО ВСЕ И СРАЗУ" к "У НАС ЕСТЬ ИЕРАРХИЯ ЗАПРОСОВ ПО ВАЖНОСТИ"

Answer 1 · 2019-12-03 03:31:44

Олег Фролов @Digiport

PHP рулит

Говорят, именно в таких случаях реляционные БД показывают своё преимущество.

Ответ написан более трёх лет назад

3 комментария

Answer 2 · 2019-12-03 09:53:39

для большого массива данных, речь про миллиарды записей(на данный момент 200млн).

Это никакие не "большие данные".
Для современного железа и современного СУБД - это ерунда.

Стандартные решения на таких объемах начинают деградировать по скорости вставки/чтения(очень важно).

Для чтения - индексы.
Для вставки - bulk loading

Приемлемое время отклика до 20 сек, конечно чем быстрее - тем лучше.

Это троллинг?
Или вы нам пишете из 1960 годов?

Данные хранятся в одном ЦОДе. Сейчас 10-50 запросов/сек. В ближайщем будующем около 100запр/сек.

Это не нагрузка вообще. Смешно.

В данный момент используется MongoDB. Стурктура данных выглядит след образом(буду писать в терминах монги) - документе порядка 80 полей, с типом string, datetime, int, float, null, boolean. У записи есть уникальный ключ, с типом string(длиной в 30 символов). Поиск осуществляется по 30 полям и их возможным комбинациям. Необходимо читать в режиме реалтайм и делать всевозможные агрегационные операции с данными. На таких данных очень долго выполняется операция count.

Индексы.
А для агрегаций - подготовленные данные использовать. Count - всегда медленно, поскольку это полный перебор. Считать заранее, сохранять во вспомогательных данных.
Смысла нет использовать MongoDB, если только вы не собираетесь это по огромному кластеру размазывать. Там и будет преимущество Монги.
На 1-2-3 серверах классические реляционные СУБД типа PostgreSQL имеют преимущество перед Mongo.

Поиск осуществляется по 30 полям и их возможным комбинациям

Индексы по полям и комбинациям.
См. план запроса чтобы понять какие именно индексы нужны.

Answer 3 · 2019-12-03 08:35:27

Сергей @begemot_sun

Программист в душе.

ClickHouse рассмотрите

Ответ написан более трёх лет назад

2 комментария

Answer 4 · 2019-12-03 09:54:31

Можно вынести поиск в elasticSearch, который будет возвращать идентификаторы документов, а уже по ним быстро доставать документы из монги.

Ну и про OLAP вам уже написали

Answer 5 · 2019-12-03 09:10:01

За MongoDB не скажу. Но общее направление очевидно:
- планы запросов (используются ли индексы? или перебирается вся таблица?)
- дисковые операции (возможно, имеет смысл купить SSD с лучшим показателем IOPS).
- масштабирование (организовать несколько slave-реплик и распределять "поисковую" нагрузку между ними)
- денормализация (создать поля и таблицы со "вторичными" данными; например, с количеством товаров; тогда, возможно, удастся обойтись без операций count или сократить кол-во этих операций)
- логика приложения (возможно, без каких-то операций можно обойтись)

Answer 6 · 2019-12-04 01:25:09

Я бы тоже смотрел в сторону Clickhouse или другой column-store СУБД (вместо того, чтобы делать классическую DWH-снежинку).
Ради прикола еще я бы попробовал записать эту таблицу "порядка 80 полей" в партиционированный Parquet и вычитывал бы столбцы в таблицы Apache Arrow по мере необходимости (с языком обвязки по вкусу, там кажется все языки есть). Думаю производительность будет сравнима с Clickhouse, ну или уж точно лучше MongoDB. Вот бенчмарки двухлетней давности. Если кластера не надо, то и Spark там не нужен.

Проектирования СУБД для хранения больших объемов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт