Какую БД использовать для проекта?

Question

Смотритель @zuart

... уже и не знаю, нуп, похоже ...

Базы данных

Какую БД использовать для проекта?

Приветствую местный народ.

В общем после сбора информации, проб и ошибок с использованием сторонних систем логгирования все-таки было принято решение попробовать собрать что-то более подходящее самостоятельно. На текущий момент получилось следующее:
- один инстанс логгера может принимать данные по любому из настроеных каналов: UnixSocket, WebSocket, HTTP
- в качестве БД для занесения информации для тестов использовали Монго в ее базовой настройке
- максимальную скорость принятия и внесения в БД поступающей информации получили через UnixSocket - около 100тыс записей в сек (причем есть все основания считать "узким местом" Монгу)
- клиентская библиотека в UnixSocket в пиковых тестах успевала "напихивать" до 500тыс событий в сек

В принципе скорость в штатном режиме будет гораздо ниже, думаю и до 20тыс в сек не дойдет (до 50тыс пиковые нагрузки). Но встал следующие вопросы, требующие решения (возможно, некоторые мои предположения будут нупскими):

1. Монго, конечно, быстро принимает записи, но работать потом по ней с выборками будет, наверное, очень проблематично, т.к. если хранить все данные в одной коллекции, она вырастет до неимоверных размеров. Рассматриваем вариант "посуточного" хранения информации - в 00:00 просто переименовать рабочую коллекцию в суточную. Но тут появляются сомнения, а можно ли потом эффективно работать по нескольким коллекциям с выборками/фильтрациями/слияниями?

2. Если отказаться от Монго, то какая из РСУБД в состоянии "принимать в себя" около 100тыс записей в сек? Речь не про инсерты, а именно про сами записи, т.к. вставка производится не "построчно", а блоками размер которых зависит от объема поступающей информации (если мало - малыми порциями, если поток выше - порции больше).

3. Может какой-то смешанный вариант реализовать, с системой переноса и "нормализации" из Монго в РСУБД. Но тут встает вопрос оперативности. Если сервис логгера будет писать в Монго, а некий переносчик раз в минуту будет все забирать из Монго и складировать в РСУБД, будет ли он успевать за минуту переносить все то, что будет накоплено в Монго, даже если брать большими блоками? Ну и плюс появится некоторая задержка с отображении поступающей информации, а иногда нужно "реалтайм" мониторить поступление информации от какого-то из клиентов и сразу же ее отображать в гуевке. Придется шаманить с межпроцессовым взаимодействием логгера и ГУИ.

Буду благодарен за любой совет/предложение по существу.

ЗЫ. Критика, конечно, тоже приветствуется, но в рамках приличия =))

Вопрос задан более трёх лет назад
868 просмотров

5 комментариев

Подписаться 5 Простой 5 комментариев

sim3x @sim3x

0. Что принимаете: структирированую, не струтурированную, бинарную, текстовую
1. Как храните: бинарник, текстовик, 3NF
2. Как обрабатываете для хранения: на лету, ...
3. Какие запросы к данным идут
4. Какой rps требуется

Написано более трёх лет назад
Смотритель @zuart Автор вопроса

sim3x,
0. частично структурированную: несколько полей обязательных, строковые данные + одно поле JSON-строки (на текущий момент в монго все летит как один объект)
1. сейчас в Монго все летит как объекты
2. обработка для записи сейчас не требуется, т.к. передаются уже сформированные клиентами объекты, проверяются только обязательные "поля - свойства"
3. по выборкам пока предсказать сложно, но что точно будет - это запрос логов за какой-то интервал времени с фильтрацией по обязательным полям и сортировкой по времени, и наверняка будет еще просто поиск по подстроке в свободном поле данных
4. как минимум около 20тыс в сек входящих данных, с пиковым пределом около 50тыс в сек (но это будет крайне редко, только в случае падения подключенных систем)

Написано более трёх лет назад
sim3x @sim3x

Артем,

3+4. Кладите все в текстовик, текстовик архивьте

Пока выборка не нужна - СУБД вам не требуется

Сейчас ваши нужды удовлетворит любой сборщик логов - тот же syslog/systemd

ПС: Монгу - стоит использовать, если вас не смутит потеря всего массива данных

Написано более трёх лет назад
Смотритель @zuart Автор вопроса

sim3x, так потому и появилась необходимость базы и всего остального, что появилась серьезная необходимость читать/анализировать логи, причем как разных модулей раздельно, так и в совокупности сквозной сортировкой по времени. Так что текстовики - это пройденный этап.

Написано более трёх лет назад
sim3x @sim3x

Артем,
по выборкам пока предсказать сложно,

появилась серьезная необходимость читать/анализировать логи, причем как разных модулей раздельно, так и в совокупности сквозной сортировкой по времени.

Ок

Про монгу я уже писал выше

Написано более трёх лет назад

Решения вопроса 1

7 комментариев

Смотритель @zuart Автор вопроса

Судя по описанию "очень вкусная конфета"!!!
Начинаем изучение, СПАСИБО!!!

Написано более трёх лет назад
Dimonchik @dimonchik2013

две базы
в одну пишешь во вторую аггрегируешь

но нужно понимать ее ограничения

Написано более трёх лет назад
Дмитрий Беляев @bingo347

Артем, только нужно учесть несколько моментов:
- в КХ нет UPDATE (хотя подвижки в этом направлении есть)
- в КХ нет DELETE (в привычном понимании)
- КХ не любит много INSERT (быстрее вставить 10к за раз, чем 10 раз по 1к)

Написано более трёх лет назад
Смотритель @zuart Автор вопроса

Дмитрий Беляев, ага, это уже почитал и понял.
В принципе:
- логи апдейтить не надо, так что не страшно
- интерес к логам пропадает через недельки две, а как я понял, есть удаление партициями месячными, ну в принципе не критично, если старые полежат в базе на пару недель дольше
- по поводу инсертов, там простая как кирпич саморегуляция - пришел пакет данных, выполняется вставка, пока не вернулся колбек о результатах новая порция копится (конечно есть и тайминг на случай отвала БД и страховка), как пришел ответ от базы о завершении операции кидается весь следующий накопленный в буфере кусок. В пиковые нагрузки такие "пакеты" могут быть по 15-20 тыс записей, в среднем они (пока для Монги получается) около 5-6 тыс в команде

Написано более трёх лет назад
Дмитрий Беляев @bingo347

Артем, именно так и есть, просто решил поделится своим опытом, ибо штука хорошая, но требует особого подхода
в частности у нас она позволила заменить 6 машин с монгой на 2 с КХ после перевода собираемой статистики на КХ, и то вторая больше на случай отказов, по факту справляется 1 машина

Написано более трёх лет назад
Dimonchik @dimonchik2013

есть еще пару видиков про использование от сотрудников Яндекса - посмотрите,
номера с памятью имеют место быть, но это при выборках

Написано более трёх лет назад
Смотритель @zuart Автор вопроса

Еще раз спасибо за наводку.
Не кривя душой, в сравнении с монгой скорость вставки ниже примерно на 40% (на одном инстансе логгера удалось добиться скорости вставки около 60тыс в сек, против 100тыс в сек на Монго). Может быть если покрутить настройки, получится и увеличить данный показатель, но в принципе это уже перекрывает наши запросы.
Выборки делаются быстро и четко, партиции сделали посуточные, так что даже не придется хранить лишнее дольше, чем это нужно.

Единственное, что смущает - это подъедание памяти сравнимое с Монгой. Но тут сложно сравнивать - ибо и CH и MDB на одной машине крутятся и монго по идее должна есть все, что может, освобождая то, что просит система... в общем тут сложнее - надо будет покурить мануалы и может помучать самих яндексоидов на тему ограничений в параметрах запуска сервиса.

Еще раз СПАСИБО!

PS. Поправочка. На сервере скорость вставки в один поток из одного инстанса при приеме данных через UNIX-сокет достигла 80тыс в сек. Этого более чем достаточно для работы!!!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

3 комментария

4 комментария

Смотритель @zuart Автор вопроса

ELK смотрели, GrayLog тоже и еще ряд уже готовых "из коробки" систем лог-менеджмента. Но они не совсем устраивают своими возможностями. Точнее даже сказать, у них у каждой есть что-то нужное, но в совокупности ни у одной =(
К тому же помимо менеджмента логов в обычном понимании, нам нужна возможность читать логи "реалтайм" хотя бы по простейшим фильтрам (проект/сервер/тип событий) + отображать в минифреймах текущую информацию о каждом из проектов (которую каждый проект постоянно сообщает о себе)

Написано более трёх лет назад
Philipp @zoonman

Артем, если у вас 500 событий в секунду, то ничто не сможет вам это отобразить. Вы просто не сумеете это все прочесть.

Написано более трёх лет назад
Смотритель @zuart Автор вопроса

Philipp, Вы правильно говорите, что никто не сможет это прочесть, но это уже такой нюанс, который решается нюансами ГУИ. Простой вариант - это просто ведение счетчика, который считает полученные для отображения записи и в случае превышения, скажем, 100 в секунду, стопит отображение и выдает предупреждение о слишком общих условиях выборки для реалтайм вывода.
Но по факту - нужна возможность, это один из базовых критериев, который нельзя пересмотреть.

Написано более трёх лет назад
Philipp @zoonman

Артем, если нужно отображать такие вещи, то стоит использовать какой-то аггрегирующий параметр и тогда у вас получится нечто вроде этого https://www.youtube.com/watch?v=KYhv6eEUqCk

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 234 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 411 просмотров
1

ответ
SQL

+1 ещё

Простой
Какие таблицы для продуктов (и их вариантов) в БД использовать?
- 1 подписчик
- 02 сент.
- 187 просмотров
1

ответ
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 87 просмотров
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 165 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4839 просмотров
8

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 402 просмотра
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 212 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 148 просмотров
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 226 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Администратор баз данных (DBA) (MariadDB Galera, ClickHouse Cluster)

Безлимит

от 300 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

0. Что принимаете: структирированую, не струтурированную, бинарную, текстовую
1. Как храните: бинарник, текстовик, 3NF
2. Как обрабатываете для хранения: на лету, ...
3. Какие запросы к данным идут
4. Какой rps требуется
sim3x,
0. частично структурированную: несколько полей обязательных, строковые данные + одно поле JSON-строки (на текущий момент в монго все летит как один объект)
1. сейчас в Монго все летит как объекты
2. обработка для записи сейчас не требуется, т.к. передаются уже сформированные клиентами объекты, проверяются только обязательные "поля - свойства"
3. по выборкам пока предсказать сложно, но что точно будет - это запрос логов за какой-то интервал времени с фильтрацией по обязательным полям и сортировкой по времени, и наверняка будет еще просто поиск по подстроке в свободном поле данных
4. как минимум около 20тыс в сек входящих данных, с пиковым пределом около 50тыс в сек (но это будет крайне редко, только в случае падения подключенных систем)
Артем,

3+4. Кладите все в текстовик, текстовик архивьте

Пока выборка не нужна - СУБД вам не требуется

Сейчас ваши нужды удовлетворит любой сборщик логов - тот же syslog/systemd

ПС: Монгу - стоит использовать, если вас не смутит потеря всего массива данных
sim3x, так потому и появилась необходимость базы и всего остального, что появилась серьезная необходимость читать/анализировать логи, причем как разных модулей раздельно, так и в совокупности сквозной сортировкой по времени. Так что текстовики - это пройденный этап.
Артем,
по выборкам пока предсказать сложно,

появилась серьезная необходимость читать/анализировать логи, причем как разных модулей раздельно, так и в совокупности сквозной сортировкой по времени.

Ок

Про монгу я уже писал выше

Answer 1 · 2018-08-23 19:09:58

Dimonchik @dimonchik2013

non progredi est regredi

см. внизу

Ответ написан более трёх лет назад

7 комментариев

Answer 2 · 2018-08-23 15:45:20

Cassandra хорошо работает в режиме массивной записи. CQL вместо SQL.
https://jaxenter.com/evaluating-nosql-performance-...
https://dzone.com/articles/efficient-cassandra-write
Есть также совместимая с ней ScyllaDB.
Хотя может это излишество.

Answer 3 · 2018-08-23 17:45:36

1. MongoDB вам и миллион записей создаст в секунду, используйте шардинг и будет вам счастье.
2. Использование MongoDB для хранения логов так себе решение поскольку она придумана не для этого.
3. Смотрите в сторону ELK. Не нравится оно, есть https://prometheus.io/docs/introduction/overview/ + Graphana. Еще есть graylog.
Опций много.

Answer 4 · 2018-08-25 00:48:27

Монго, конечно, быстро принимает записи, но работать потом по ней с выборками будет, наверное, очень проблематично

Ага-ага блокировки всякие.

какая из РСУБД в состоянии "принимать в себя" около 100тыс записей в сек?

Правильно настроенный MySQL. Повторяю, не MariaDB, а MySQL.
Ещё в версии 5.7 можно было сделать так чтобы он работал почти как NoSQL база.

Если сервис логгера будет писать в Монго, а некий переносчик раз в минуту будет все забирать из Монго и складировать в РСУБД, будет ли он успевать за минуту переносить все то, что будет накоплено в Монго, даже если брать большими блоками?

Так и не нашёл такой переносчик. Разве что самому писать.

Буду благодарен за любой совет/предложение по существу.

arangodb

Answer 5 · 2018-08-28 11:57:28

Лучшим опен сорс решением будет, на мой взгляд, для данной задачи будет взять elastic стак + RabbitMQ/Kafka (гибкая фильтрация + симпотная вебмордашка прилагаются).

Какую БД использовать для проекта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт