Какую базу выбрать для bigdata?

Question

alexdora @alexdora

Топ-менеджер

Какую базу выбрать для bigdata?

Добрый день всем

Столкнулись с дилеммой при разработке. Есть входящие данные 100-150к rps (Читать как более 100 000 отдельных инсертов в секунду). Сейчас все это работает так:
В базе разделено все на более чем 800 таблиц (сама таблица это некий указатель на пул данных, как индекс), внутри таблиц используются индексы на время (поделили по год/день)
И все это в mysql...
Еще тогда на первых версиях реализовали некий буфер, который 100 инсертов объединяет в 1 большой и отправляет в базу, потому что mysql просто мягко говоря не вывозила если начинаешь лить инсерты по одному. Но тогда запросов было меньше. Сейчас настало время обновления и решили что-то придумывать другое.
Разделение таблиц – было первое обновление чтобы избавится от одного индекса и складывать все не в одну большую таблицу, а несколько. Это и добавило удобства, уменьшило место и ускорило систему (меньше индексов - быстрее инсерт).
Итого: приняли решение уходить с mysql, по нашему скромному мнению – она не подходит для задачи.
Основные хотелки:
1. Уменьшить размер занимаемых данных
2. Избавится от самописного буфера и просто инсертить
3. Кластеризация (у нас это сейчас в "ручном" режиме 3 базы mysql разных на 12ТБ, в конфигах ручками прописаны сервера где хранится тот или иной пул данных)
4. Выборка по базе это единичные большие запросы. Например: дай мне данные с такого-то пула за такой-то период времени. Скорость запроса не должна выходить за предел абсурда == до секунды это окей. Селекты делаются большие, но их единицы. В основном ночью на пересчет отправляются куски данных.

Поспрашивали ребят знакомых, сказали что такие задачи решаются: Cassandra или Postgre.

На тему Касандры почитал, все нравится (некий авто-кластер), но так и не понял что там с индексами, а именно 128 битный ключ. Если я правильно все понял, то это сразу перечеркивает пункт 1. И непонятно что со скростью инсертов. На вид оно сделано для того чтобы было условно 1000 разных клиентов которые читают и пишут. У нас таких клиентов нет, у. нас есть сервис который пишет эти данные. Есть приложение которые делает конкретные запросы на чтение.

Postgre я никогда не работал, но знаю что это. Мб кто с ней работает просто прокомментирует как сиё чудо ведет себя при входящих условиях. А именно как переваривает отдельные инсерты в большом количестве

Вообще, если какие мысли будут под такую задачу, буду рад любому комментарию. А то уже идеи появляются сделать все в файловой системе, а в mysql указатели хранить :) Что будет самым экономным и возможно самым быстрым. Но писать отдельный драйвер. ой как не хочется

Отписался в отдельном посте. Всем спасибо

Вопрос задан более трёх лет назад
4673 просмотра

6 комментариев

Подписаться 20 Сложный 6 комментариев

FanatPHP @FanatPHP

Если отказаться от ИзбавитЬся от самописного буфера и просто инсертить то кликхаус

Написано более трёх лет назад
Melkij @Melkij

Нет, postgresql под такую задачу останется вам неудобен.
На сколько помню internals mysql, в postgresql row header даже на несколько байт больше, очень вряд ли получите уменьшение занимаемого места.
Буфер на таком потоке всё равно будет нужен. Тысяч 10-15 insert command/sec с сервера с хорошим DBA ещё выглядят возможными, дальше могут быть приключения из глубин internals.
Шардинг так же внешний останется.

Написано более трёх лет назад
zo0Mx @zo0Mx

ScyllaDB решит ваши вопросы.

Написано более трёх лет назад
shurshur @shurshur

Очень сильно зависит от задачи, от того, как устроены данные, как с ними работают. Поэтому вопрос "какую базу взять" без серьёзного предварительного анализа не имеет однозначного ответа.

Написано более трёх лет назад
rPman @rPman

что за данные? что дает поток временных данных в 150к rps
что нужно делать с данным после, достаточно ли выборки на дату/интервал?
нужно ли редактирование или это write once read many database?
нужны ли транзакции? возможно чтение недавно записанных данных?
нужно ли резервное копирование налету?

Написано более трёх лет назад
DevMan @DevMan

edward_freedom, приглашаю как знатока.

Написано более трёх лет назад

Решения вопроса 7

3 комментария

Комментировать

1 комментарий

shurshur @shurshur

Добавлю, основная проблема Кассандры - это GC, с которым так и не удаётся до конца побороться. Многие пользователи Кассандры в итоге просто рестартуют время от времени её ноды, это помогает, но это не сликом-то нормально. Scylla позволяет этого избежать (а также позволяет достичь той же производительности при кластере заметно меньшего размера), но у неё были (а может и до сих пор есть) серьёзные недоработки и баги, которые приводили к полной деградации всего кластера. Во всяком случае, у нас после полугода отладки и нагрузочных тестов таки перешли на Scylla... а потом через пару недель после второй ночной аварии вынуждены были срочно откатиться обратно, и пока, спустя год, до сих пор не решились на повторный переход. Разработчики Scylla ничем так и не помогли. В общем, возможен риск - впрочем, его можно огрести с любым незнакомым решением. Наш партнёр вышел из затруднения так: он держит инстанса платформы с двумя кластерами, на который кидает пополам трафик, и в случае любого сбоя (не обязательно сбоя Cassandra/Scylla) просто моментально снимает трафик с проблемной платформы или даже переводит его нам. У нас же ресурсов держать две полностью полноценных и готовых к нагрузкам платформы нет.

Написано более трёх лет назад

Комментировать

1 комментарий

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 1 подписчик
- 14 окт.
- 181 просмотр
4

ответа
PostgreSQL

Простой
Как отредактировать строку в таблице, не имеющей primary key?
- 1 подписчик
- 10 окт.
- 239 просмотров
4

ответа
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 302 просмотра
1

ответ
PostgreSQL

+1 ещё

Средний
Как установить Postgres в Ubuntu от 1с (c ИТС)?
- 1 подписчик
- 22 сент.
- 196 просмотров
2

ответа
PostgreSQL

Простой
Есть ли способ логировать работу процедуры?
- 1 подписчик
- 12 сент.
- 129 просмотров
2

ответа
PostgreSQL

Простой
Как обновить версию postgres в кластере patroni?
- 1 подписчик
- 11 сент.
- 118 просмотров
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 432 просмотра
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 203 просмотра
1

ответ
PostgreSQL

Средний
VACUUM в PostgreSQL 15 уже несколько суток в фазе vacuuming indexes что можно сделать?
- 6 подписчиков
- 27 авг.
- 886 просмотров
2

ответа
PostgreSQL

+1 ещё

Средний
Почему увеличилась генерация WAL-сегментов?
- 1 подписчик
- 21 авг.
- 172 просмотра
1

ответ
Показать ещё Загружается…

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

PHP-разработчик (Symfony)

Мегаплан

от 160 000 ₽

Data Analyst (Python Analyst)

Borderless360

от 4 000 до 6 000 $

Если отказаться от ИзбавитЬся от самописного буфера и просто инсертить то кликхаус
Нет, postgresql под такую задачу останется вам неудобен.
На сколько помню internals mysql, в postgresql row header даже на несколько байт больше, очень вряд ли получите уменьшение занимаемого места.
Буфер на таком потоке всё равно будет нужен. Тысяч 10-15 insert command/sec с сервера с хорошим DBA ещё выглядят возможными, дальше могут быть приключения из глубин internals.
Шардинг так же внешний останется.
Очень сильно зависит от задачи, от того, как устроены данные, как с ними работают. Поэтому вопрос "какую базу взять" без серьёзного предварительного анализа не имеет однозначного ответа.
что за данные? что дает поток временных данных в 150к rps
что нужно делать с данным после, достаточно ли выборки на дату/интервал?
нужно ли редактирование или это write once read many database?
нужны ли транзакции? возможно чтение недавно записанных данных?
нужно ли резервное копирование налету?

Answer 1 · 2022-01-16 17:12:28

Звучит как задача для ClickHouse, Вроде как они недавно пофиксили производительность при отдельных инсертах без буфера. Даже если нет, есть схема с записью всех событий в Kafka и вычитыванием оттуда с помощью Materialized view в таблицу КликХауса. Эта схема точно рабочая и указанные нагрузки выдержит. Плюс отличное сжатие данных.
Чистый PostgreSQL по производительности не сильно отличается от MySQL, а вот с дополнением TimescaleDB вставка становится очень быстрой, возможно вам его хватит. Там полноценный SQL и возможность редактировать данные без проблем. Неплохо сжимает.
Про ScyllaDB уже написали.

Answer 2 · 2022-01-16 20:10:01

Хороший вопрос.
Во-первых, чтобы думать о платформе, нужно больше узнать о вашей базе и данных, и data lifecycle. Советы вроде Clickhouse и Postgres Timescale вполне релевантны если ваши данные это time series, и не очень, если нет.
Я бы на вашем месте:
1) заказал сессию с архитекторами Percona, CockroachDB или другого NewSQL, и т.п.
2) включил бы наличие надежного DBaaS как условие для выбора платформы

Answer 3 · 2022-01-16 16:03:10

CockroachDB. Это как постгрес, но шардированный из коробки. Ничего вручную настраивать не нужно, только правильный первичный ключ подобрать. Насколько быстрыми будут большие инсерты зависит от ключа. Если будет хорошо шардированный, то будет быстро.

Кассанда тоже подойдет, но ее сложно готовить. Это только кажется что там все просто, на самом деле у Кассандры куча нюансов буквально во всем. Вторичные индексы там локальные. Если в двух словах, то селекты только по вторичному индексу сканируют всю базу, то есть очень медленно. В идеале нужно использовать селекты которые делают фильтр и по первичному, и по вторичному, тогда будет быстро. Там таких gotcha очень много. Все кто работает с Кассандрой должны понимать что они делают, потратить время на изучение.

Есть еще ScyllaDB – это C++ версия Кассандры. Там некоторые проблемы Кассандры пофикшены. Ну и сцилла быстрее и эффективнее, спасибо крестам.

Answer 4 · 2022-04-14 18:38:27

Я прошу прощения что не-про-лайкал, но за темой следил. Утонули в работе. Хочу ответить к чему все пришло, кому будет интересно

Еще как тема создалась, мы сразу пробовали различные варианты которые тут советовали.

Clickhouse – не зашел, кажется что он слишком простой, но он требует инженерить. Это все не так просто оказалось как 1,2,3.
Да, быстро читает
Да, чуть сэкономил место на тестовом стенде (2%)
Но: кучу геморроя с настройкой и потребуется вложить время в переделку всего (ч.к деньги). А у нас никто им не владеет

Kafka Немного не под эту задачу, но взяли её в оборот на будущие доработки внутри микросервисов

Далее отвлеклись, а когда вернулись к вопросу с холодной головой оказалось что купить Б/У сервера с новыми NVME дисками (нет перезаписи - нет проблем с ресурсом) выгоднее, чем тратить время на оптимизацию. Провели работу над соединениями, основному софту mysql теперь нужно только чтоб сделать старт. Далее база не нужна, а данные читают как читались большими выборками
Поработали над буфером, добавили mysql серверов и вот нагрузка уже не такая печальная.

Answer 5 · 2022-01-18 11:38:36

Так как автор молчит про особенность своей задачи, значит можно предположить что угодно? например write once read many базы данных? с запросом только данных по временному интервалу?

Пили самописное что-нибудь на основе файлов.

Современная файловая система, если это не какой-нибудь fat, - это отличная key-value база данных, причем самая быстрая из возможных, но без инструментов индексирования (кроме поиска по имени, если дробить его по подкаталогам то не будет лишних накладных расходов, например на обслуживание), а так как у автора временные ряды, раскидать по файлам-каталогам соответственно временным интервалам (дни или часы), разбив данные по еще какому либо признаку, если нужна фильтрация по нему, можно получить искомый результат фактически забесплатно (нечего там кодить). Например, если тебе нужны редкие транзакции (атомарно менять большой объем данных не ломая чтение) то какой-нибудь btrfs представит этот функционал за бесплатно на основе снапшотов.

В подавляющем большинстве ситуаций, индексы или хелперы (например бинарный map есть нет данных на дату) даже на большие базы данных вполне себе влезают даже в оперативную память средней машины, что сильно упрощают логику и дают огромный прирост по скорости по сравнению с универсальным решениями

Некоторые сложности может создать задача частых запросов на чтение, в этом случае нужно физически разнести голову массива данных и основное хранилище (например голова на ssd все остальное на hdd), а перенос проводить в момент наименьшей нагрузки, ну само собой можно и все на ssd если денег хватает, просто когда такой поток данных, сразу терабайты мерещатся

Answer 6 · 2022-01-16 20:22:29

zo0Mx @zo0Mx

Строжайше рекомендую ScyllaDB - решит все ваши вопросы.

Ответ написан более трёх лет назад

1 комментарий

Answer 7 · 2022-01-18 14:29:57

Кликхаус или Аэроспайк
https://habr.com/ru/post/551508/

зависит много от чего, надо ли сохранять исходные данные и т.п.

чудесов нет: вставляется хорошо пока ХОПА - не кончается память / быстрые диски, потом лаги, потери, очереди, очко админа и пересмотр зарплат

кстати о зарплатах - если слышали о Кассандре, но не слышали об Аэроспайке - можете начинать пересматривать

Answer 8 · 2022-01-17 23:07:20

lonely_guy @lonely_guy

Tidb. Mysql совместима, шардирование их коробки,
отлично работает в htap сценариях

Ответ написан более трёх лет назад

Комментировать

Answer 9 · 2022-01-18 05:58:04

Не бросайтесь тапками. Оракул вам поможет. Вместо индекса используйте партиции. Для вставки есть bulk insert

Какую базу выбрать для bigdata?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт