Быстрый на запись сервис/БД для логов?

Question

Сардар @Sardar

Быстрый на запись сервис/БД для логов?

Доброго дня. Возможно я изобретаю колесо, но требуется создать сервис для сбора
и обработки частых событий. События прибывают REST/POST запросом и несут в себе
немного данных в JSON. Периодически группа рабочих задач бежит по собранным
событиям и строит свои расчеты.

Требуется некий сервис/БД, оптимизированная под запись логов. В идеале такой
сервис должен представлять собой большое полотно, на котором размещены два
курсора. Один курсор только пишет, позади него курсор только читает. Казалось
бы, это простейшая работа с файлом, но есть требования:

* Курсор на запись должен писать крайне быстро, желательно без реального I/O,
сразу возвращая управление. Редкая потеря событий не проблема. Некоторым
асинхронным способом база должна регулярно сбрасывать накопленное на диск.
* В буквальном смысле сотни процессов могут одновременно писать события.
Т.к. база пишется только на добавление, никакие блокировки не допустимы.
* Чтение выполняется большими блоками и сразу после чтения данные
автоматически удаляются. Читают не более десятка процессов одновременно.
Один процесс всегда читает один блок или должен быть механизм, согласно
которому два процесса могут узнать, что прочли пересекающиеся данные.
* Данных может быть очень много. С точки зрения будущего, если такой сервис
можно собрать в кластер, то было бы совсем идеально. Иначе придется читать
чаще.
* Так как данных много, то их совсем не за чем держать в памяти попусту,
кроме как для буфера записи.

Может кто–то сталкивался с подобной задачей и может посоветовать как/куда
сбрасывать полотно с логами?

Вопрос задан более трёх лет назад
3520 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 5

3 комментария

Сардар @Sardar Автор вопроса

Не плохо, но задача несколько проще. Не требуется хранить отдельные записи или искать в них, используются только результаты процессов-аггрегаторов. С другой стороны, необходимо обеспечить ~нулевое время задержки на запись события. Собственно искомый сервис это быстрое на запись временное хранилище для событий.

Написано более трёх лет назад
sajgak @sajgak

а кто мешает хранить индекс, скажем по дням, и удалять старые индексы?)

Написано более трёх лет назад
Сардар @Sardar Автор вопроса

Можно, но это не входит в задачу. Одно событие живет не дольше, чем будет прочитано аггрегатором. Постройка индекса это не нужные накладные расходы, а сам индекс никогда не будет использоваться. Само сообщение это немного данных в JSON и не предназначено для чтения человеком. Но возьму logstash на вооружение, хороший фильтр логов. Спасибо.

Написано более трёх лет назад

1 комментарий

3 комментария

Сардар @Sardar Автор вопроса

Riak хороший key-value store. Использовал его для хранения пользовательских картинок и документов - хорошо он бинарные данные хранит и отдает. Он больше ориентирован на надежность с его шустрой репликацией и кворумом. Но на запись он все таки не самый быстрый (вполне ожидаемо), проверил на своем опыте. Также как и любой key-value store нет явной последовательности ключей (лог, FIFO). В общем писать большие бинарные документы не шибко часто с высокой надежностью и быстрым доступом на чтение - Riak хорош. В качестве лога, не очень.

Написано более трёх лет назад
portfelio @portfelio

Хочется, таки, уточнить - у вас был опыт работы с кластером и через PB или с одной машиной и через REST? Не скажу про все версии, но во второй уже можно делать явную последовательность ключей. В моём понимании бинарные документы стоит хранить на диске - лишний оверхед ни к чему, называйся он Риаком или Посгресом.

Написано более трёх лет назад
Сардар @Sardar Автор вопроса

Кластер из 3 машин, PB, клиент и приложение на питоне. Бинарные документы стоит хранить в кластере ради надежности и доступности. К примеру магазин (bodyenfitshop.nl), покупка создает снимок всех объектов (продукты, скидки, часть правил логики и т.д.) на тот момент в JSON. Снимок позволяет просматривать фактуру и пересчитывать статистику в любое время позже, не переживая, что один из десятков связанных объектов мог измениться (классическая проблема молодых магазинов). Снимок сливается в Riak. В итоге он надежно доступен (репликация) и доступен с любого из app. серверов практически мгновенно. Можно, конечно, сливать все на диск и синхронизировать rsync'ом между машинами (!задержка), или примонтировать общий диск (!задержка, не надежно), но появляется проблема с блокировками (на NFS вообще труба), IO, медленной работой ОС с директориями в сотни тысяч файлов и т.д. Короче, Riak.

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Pycharm для старенького мака??
- 1 подписчик
- 16 часов назад
- 138 просмотров
3

ответа
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 103 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 496 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 96 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 139 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 512 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 141 просмотр
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 119 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 541 просмотр
1

ответ
Python

+1 ещё

Средний
Как парсить фотографии gspread?
- 1 подписчик
- 06 окт.
- 186 просмотров
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Answer 1 · 2014-01-22 19:39:58

egor_nullptr @egor_nullptr

Могу посоветовать Scribe.

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-01-22 23:09:18

elasticsearch + logstash.
При количестве сообщений больше 10к в секунду - желательно спереди поставить очередь.
Плюсы: эластик - поисковый индекс поверх апачевской люсины, с соответствующими возможностями поиска и фильтрации. logstash - сервис, позволяющий фильтровать проходящие через него данных по динамически генерируемому набору фильтров. очень удобно для обогащения / обеднения сообщений

Answer 3 · 2014-01-22 20:33:30

Можно написать самим на Erlang в том числе распределенную на несколько машин. Каковы ваши требования по объему\производительности ?

Answer 4 · 2014-01-26 06:02:58

Кластер из 2+ машин с Riak. Запись в кластер через PB (en.wikipedia.org/wiki/Protocol_Buffers) если есть реализация на вашем ЯП или через REST.

Answer 5 · 2014-01-26 06:05:07

portfelio @portfelio

Альтернативный вариант - опять таки кластер, но на основе Tarantool (tarantool.org)

Ответ написан более трёх лет назад

2 комментария

Answer 6 · 2015-12-20 21:58:28

deep_orange @deep_orange

InfluxDB

Ответ написан более трёх лет назад

Комментировать

Быстрый на запись сервис/БД для логов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт