Какие есть инструменты и решения для экстремально быстрой online-аналитики потоковых данных?

Question

Иван Мельников @immelnikoff

Изучаю БД

Какие есть инструменты и решения для экстремально быстрой online-аналитики потоковых данных?

Хотелось бы узнать о таких инструментах, решениях и подходах разработки для экстремально быстрой online-аналитики потоковых данных для decision making.
Я понимаю, что ничего не может быть быстрее полной реализации необходимого функционала на C/C++, но это часто (если не всегда) слишком дорого, слишком долго и менее стабильно.
Какие "кирпичики" используют в таких задачах?

Уточнения:
- Под экстремально быстрой аналитикой я подразумеваю "чем быстрее, тем лучше". Например, 1 мс будет сильно лучше 10 мс.
- Под данными подразумеваются market data от множества различных независимых источников.
- Для меня важно стабильное экстремальное low lanency. В какой-то момент данных может поступать очень много (highload), а в какой-то очень мало (единицы записей в секунду). Но в обоих случаях важен экстремальный low lanency для decision making.

Вопрос задан более года назад
979 просмотров

15 комментариев

Подписаться 4 Сложный 15 комментариев

d'Ivan @2ord

Что за аналитика? Какого рода запросы?

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Иерокопус Таманский, всевозможные статистики временных рядов в окне.

Написано более года назад
Сергей Горностаев @sergey-gornostaev

Я понимаю, что ничего не может быть быстрее полной реализации необходимого функционала на C/C++,

Это заблуждение. Среды с jit-компиляцией обычно показывают более хорошую пропускную способность после прогрева, чем aot-компилируемые выдавать в принципе способны.

Для меня важно стабильное экстремальное low lanency.

Очень редко можно встретить такое требование в подобном классе задач. За низкой латентностью гоняются обычно в системах реального времени. Зачем оно вам?

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Зачем оно вам?

Принятое решение имеет ценность, если вы его успеваете быстро реализовать. Оно быстро "протухает". Это в контексте HFT. В противном случае, в моём понимании, есть риск реализовать "протухшее" решение.

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Сергей Горностаев,

Это заблуждение. Среды с jit-компиляцией обычно показывают более хорошую пропускную способность после прогрева, чем aot-компилируемые выдавать в принципе способны.

А есть какая-то фактура на эту тему? Статьи, доклады.

Написано более года назад
Василий Банников @vabka

Сергей Горностаев,
чем aot-компилируемые выдавать в принципе способны.

Это от того что в среднем aot компилируется под среднестатистическую машину и без PGO.
Если заранее знать особенности целевой машины (семейство процессоров, поддерживаемые наборы инструкций, и закинуть данные профайлинга, то результат в принципе не будет уступать JIT-ованным языкам.

Другое дело что прогрев JIT-а занимает неизвестное время, требует определённых ресурсов.
Да и про GC не забываем. Лично я не видел таких языков, у которых был бы хороший JIT, но при этом не было GC, либо без него можно было очень легко обойтись.

Написано более года назад
Василий Банников @vabka

Иван Мельников,
А есть какая-то фактура на эту тему? Статьи, доклады.

Бенчмарки и листинг кода, который тебе генерирует JIT, и который генерирует AOT-компилятор.

Причина - PGO и информация о железе.
Производительность одних и тех же инструкций на разных поколениях процессоров может различаться, даже если в среднем производительность процессоров схожая
(был как-то доклад про то, как быстрее всего делать memcpy и ответ будет различаться, в зависимости от того, какой конкретно процессор мы рассматриваем (даже если рассматриваем только интелы))

Написано более года назад
Сергей Горностаев @sergey-gornostaev

Василий Банников,

Да и про GC не забываем.

Современные GC работают без STW и способны обрабатывать терабайтные кучи.

Если заранее знать особенности целевой машины (семейство процессоров, поддерживаемые наборы инструкций, и закинуть данные профайлинга, то результат в принципе не будет уступать JIT-ованным языкам.

Профиль выполнения может меняться и если JIT на ходу перекомпилирует код, то для AOT придётся каждый раз собирать новый профиль и новый билд с ним. Не видел ещё ни один проект, который мог бы адаптироваться например под рекламные компании так же хорошо, как проекты на JVM. При этом плюсы AOT с Граалем уже доступны для java-мира.

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Сергей Горностаев, речь про Oracle GraalVM ?

Написано более года назад
Василий Банников @vabka

Сергей Горностаев,
1. STW вроде как концептуально необходим, хоть и можно, например, привязать их к процессорным ядрам, чтобы останавливать не всё, а только часть.
2. Можно конкретный пример?

Профиль выполнения может меняться и если JIT на ходу перекомпилирует код

На что также потребуются ресурсы, чтобы собирать постоянно эту статистику, а тут у нас такая задача, где хочется чуть большей предсказуемости, хоть и может очень редко уступать в производительности жаве.

Да и то что чисто в теории JIT так может - не значит, что разработчики рантайма так станут делать.
В том же .NET, емнип, профиль собирается 1 раз и после этого статистика больше не собирается.

Написано более года назад
Сергей Горностаев @sergey-gornostaev

Василий Банников,

STW вроде как концептуально необходим

неа, shenandoah и zgc работают без остановок.

Да и то что чисто в теории JIT так может - не значит, что разработчики рантайма так станут делать.

Как классические C1 и C2, так и новый граалевский jit'ы постоянно перегенерируют машинный код под текущий профиль. Если сценарий нагрузки меняется, ресурсы потратятся на новый прогрев, но оно того стоит.

Написано более года назад
Сергей Горностаев @sergey-gornostaev

Иван Мельников, он уже не оракловый, в прошлом году они его передали в опенсорс.

Написано более года назад
Василий Банников @vabka

Сергей Горностаев,

неа, shenandoah и zgc работают без остановок.

Спс, почитаю.

Написано более года назад
Василий Банников @vabka

Сергей Горностаев,

Если сценарий нагрузки меняется, ресурсы потратятся на новый прогрев, но оно того стоит.

Тут сценарий выглядит как раз так, будто профиль вообще не будет меняться

Написано более года назад
Сергей Горностаев @sergey-gornostaev

Василий Банников, я бы тогда на Rust посмотрел, как дрочер на функциональщину )

Написано более года назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Инженер по тестированию

5 месяцев

Далее
Thinknetica

Профессиональная разработка на Ruby on Rails

9 месяцев

Далее
Специалист.ру

Основы программирования и баз данных

1 месяц

Далее

Пригласить эксперта

Ответы на вопрос 3

8 комментариев

Иван Мельников @immelnikoff Автор вопроса

Уточню, что для меня важно стабильное экстремальное low lanency. В какой-то момент данных может поступать очень много (highload), а в какой-то очень мало (единицы записей в секунду). Но в обоих случаях важен экстремальный low lanency для decision making.

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Использовать ClickHouse для хранения данных

Многие советуют. Но вроде как KDB+ сильно быстрее для расчёта статистик в окне.

Написано более года назад
Сергей Соловьев @AshBlade

Иван Мельников, инструментов куча, а контекст задачи неясен. все хотят низкую задержку, мало потреблять ресурсов, масштабироваться бесконечно и т.д.
задачу поконкретнее надо описать

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Это обычная задача из HFT.
С нескольких фондовых и криптобирж по всем инструментам поступают рыночные данные: поток ордеров и поток сделок.
Имеется какая-то модель для принятия решений (ML, нейросеть, вероятностный вывод или просто какие-то правила вида if ... else ..., в которые мы верим).
Собственно, всё. Нам нужно экстремально быстро принимать решения о выставлении ордеров (на покупку или продажу) по мере получения новой информации.

Написано более года назад
Василий Банников @vabka

Иван Мельников,
очень много

Это сколько? В штуках или байтах/с

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса
Василий Банников,
очень много – ~ 100 тыс. записей в секунду;
очень мало – единицы записей в секунду.
Одна запись – это что-то вида

ticker: SBER type order: buy limit size: 100 price: 150.015
Написано более года назад
Василий Банников @vabka

Иван Мельников. Если упороться и постараться уместить в минимальное количество байт, то можно попробовать уместить в 64 байта с учётом выравнивания)

Ну получается меньше 50мбит в секунду, что уже выглядит как вполне адекватное количество данных, которое может переварить одна машина.

Написано более года назад
Сергей Соловьев @AshBlade

Иван Мельников, если хочешь побольше об этом узнать, то у подлодки выходил выпуск про HFT -
https://music.yandex.ru/album/7570122/track/87571524

Написано более года назад

4 комментария

Иван Мельников @immelnikoff Автор вопроса

Тут лучше сказать, какой вариант будет точно неприемлимым и на сколько сложные вычисления нужно успеть выполнить.

Желательно, от поступления новых данных на сетевой порт моего сервера до выставления заявки по api биржи должно пройти не более 100 мс. Хотя бы так. В идеале, конечно, 10 мс.
Вычисления: от стандартных статистик (среднее (усечённое) арифметическое, квантили, сумма, дисперсия, корреляции, волатильность) до чего-то посложнее (FFT, какие-то приближённые комбинаторные расчёты, по потокам ордеров и сделок строится стакан для каждого инструмента, а уже на стакане считаются метрики, например, спрэд и форма стакана). Этот этап видится самым долгим. Отработка модели должна происходить гораздо быстрее.

А этот самый market data вам уже приходить с экстремально низкой задержкой?

Этим занимаются другие и это будет сделано. А конкретно, весь pipeline будете перенесён в зону колокации биржи. В этой зоне лаг на передачу данных вроде не превышает 1 мс.

И вот у нас остаётся небольшой выбор: C, C++, Rust, Zig - компилируемые императивные языки без сборки мусора.

С выбором языков всё примерно понятно.
Но вот какое хранилище использовать для горячих данных? Можно ли использовать брокер сообщений, например, Kafka?

Написано более года назад
Василий Банников @vabka

Иван Мельников,
до выставления заявки по api биржи должно пройти не более 100 мс

До выставления заявки на бирже или до формирования заявки на твоей стороне? Ты же не можешь по сути контролировать, что происходит между тобой и биржей, и что вообще происходит на самой бирже.

В этой зоне лаг на передачу данных вроде не превышает 1 мс.

Ладно

Но вот какое хранилище использовать для горячих данных?

Непосредственно в оперативной памяти процесса я бы и хранил.
Сколько вообще этих данных физически?

Можно ли использовать брокер сообщений, например, Kafka?

1. Кафка не брокер сообщений.
2. Я бы не назвал кафку системой для горячих данных, так как все данные в кафке идут через диск.
Для онлайн аналитики она в принципе подходит, но точно не для HFT.

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

Василий Банников,

До выставления заявки на бирже или до формирования заявки на твоей стороне?

На моей стороне.

Непосредственно в оперативной памяти процесса я бы и хранил.
Сколько вообще этих данных физически?

Ну, если сделать оценку сверху. Пускай поступает 100 тыс. записей в секунду каждую секунду. По-хорошему данные в быстром доступе должны быть с начала торгового дня. Пусть торговый день длится 15 часов. Итого, 100 000 * 15 * 3600 = 5 400 000 000 записей.
Пусть информационная ёмкость одной записи 20 байт.
Итого, к концу дня сырых данных накопится 5 400 000 000 * 20 ≈ 100 ГБ.
Плюс нужно хранить рассчитанные метрики.
Выглядит так, что 256 ГБ в виде RAM должно хватить.
То есть, все хранить в оперативной памяти в принципе возможно.

Написано более года назад
Василий Банников @vabka

Иван Мельников, ну это сырые данные, а ведь их ещё нужно как-то индексировать, чтобы доступ таки был быстрым. Так что да, действительно нужно ещё сверху гигов 100.

Написано более года назад

5 комментариев

Иван Мельников @immelnikoff Автор вопроса

Разумеется, на первом этапе рассчитываются статистики в каком-то временном окне.
На втором – результаты рассчитанных статистик передаются на вход модели.
На третьем – если модель приняла решение о каком-то действии, то выставляется order на продажу или покупку, снимается/изменяется order или что-нибудь ещё.

Написано более года назад
mayton2019 @mayton2019

Иван Мельников, у этих этапов есть технические лаги. Стоит ли тебе упарываться 1 милисекундой?

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

mayton2019, пока не понятно. Может быть и 10 мс или даже 100 мс будет достаточно. Тут только методом тыка удастся нащупать баланс между сложностью модели принятия решений (с набором рассчитываемых метрик) и скоростью принятия решений.

Написано более года назад
mayton2019 @mayton2019

У тебя очень перегретое ТЗ. Лучше из него убрать такие поэтические метафоры экстремально
или "чем быстрее, тем лучше". Потому что под них невозможно написать никаких SLA, AC.
Лучше нарисовать картинкой диаграмму из кубиков где слева течет информация
и описать роли и отвественности кубиков.

Разуместся главный кубик - это язык С++ и использование AsyncIO API. В Linux оно называется
multiplexing IO. Там кажется всего три функции select, poll, epoll.

В современных C++ фреймворках эти функции могут быть просто завернуты в какое-то громкий API.
Какой - я к сожалению не знаю т.к. давно уже не писал ничего на С++.

Да. Если будешь подписываться на какие-то SLA, то никогда не указывай максимумы минимумы и средние.
Пиши про 95 процентиль например. Типа 95 % всех сигналов будут обработаны за 1мс.

Написано более года назад
Иван Мельников @immelnikoff Автор вопроса

mayton2019, спасибо за советы!

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 68 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 226 просмотров
2

ответа
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 40 просмотров
0

ответов
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 176 просмотров
2

ответа
Docker

+1 ещё

Простой
Откуда скачивать bitnami/kafka?
- 1 подписчик
- 29 окт.
- 357 просмотров
1

ответ
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт.
- 188 просмотров
2

ответа
SQL

+1 ещё

Простой
Как сделать уменьшение склада в СУБД безопасными правильным?
- 2 подписчика
- 14 окт.
- 234 просмотра
4

ответа
Python

+1 ещё

Простой
Python kafka не видит headers?
- 1 подписчик
- 29 сент.
- 150 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить данные в виде текста на русском языке из базы данных Paradox 4.5?
- 1 подписчик
- 23 сент.
- 323 просмотра
1

ответ
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 238 просмотров
2

ответа
Показать ещё Загружается…

Разработчик плагина для Wordpress

TripShock Adventures

от 1 200 до 2 500 $

Senior Elixir Developer

Clickavia

от 3 000 до 4 000 $

Data Analyst

Clickavia

от 80 000 до 100 000 ₽

Что за аналитика? Какого рода запросы?
Иерокопус Таманский, всевозможные статистики временных рядов в окне.
Я понимаю, что ничего не может быть быстрее полной реализации необходимого функционала на C/C++,

Это заблуждение. Среды с jit-компиляцией обычно показывают более хорошую пропускную способность после прогрева, чем aot-компилируемые выдавать в принципе способны.

Для меня важно стабильное экстремальное low lanency.

Очень редко можно встретить такое требование в подобном классе задач. За низкой латентностью гоняются обычно в системах реального времени. Зачем оно вам?
Зачем оно вам?

Принятое решение имеет ценность, если вы его успеваете быстро реализовать. Оно быстро "протухает". Это в контексте HFT. В противном случае, в моём понимании, есть риск реализовать "протухшее" решение.
Сергей Горностаев,

Это заблуждение. Среды с jit-компиляцией обычно показывают более хорошую пропускную способность после прогрева, чем aot-компилируемые выдавать в принципе способны.

А есть какая-то фактура на эту тему? Статьи, доклады.
Сергей Горностаев,
чем aot-компилируемые выдавать в принципе способны.

Это от того что в среднем aot компилируется под среднестатистическую машину и без PGO.
Если заранее знать особенности целевой машины (семейство процессоров, поддерживаемые наборы инструкций, и закинуть данные профайлинга, то результат в принципе не будет уступать JIT-ованным языкам.

Другое дело что прогрев JIT-а занимает неизвестное время, требует определённых ресурсов.
Да и про GC не забываем. Лично я не видел таких языков, у которых был бы хороший JIT, но при этом не было GC, либо без него можно было очень легко обойтись.
Иван Мельников,
А есть какая-то фактура на эту тему? Статьи, доклады.

Бенчмарки и листинг кода, который тебе генерирует JIT, и который генерирует AOT-компилятор.

Причина - PGO и информация о железе.
Производительность одних и тех же инструкций на разных поколениях процессоров может различаться, даже если в среднем производительность процессоров схожая
(был как-то доклад про то, как быстрее всего делать memcpy и ответ будет различаться, в зависимости от того, какой конкретно процессор мы рассматриваем (даже если рассматриваем только интелы))
Василий Банников,

Да и про GC не забываем.

Современные GC работают без STW и способны обрабатывать терабайтные кучи.

Если заранее знать особенности целевой машины (семейство процессоров, поддерживаемые наборы инструкций, и закинуть данные профайлинга, то результат в принципе не будет уступать JIT-ованным языкам.

Профиль выполнения может меняться и если JIT на ходу перекомпилирует код, то для AOT придётся каждый раз собирать новый профиль и новый билд с ним. Не видел ещё ни один проект, который мог бы адаптироваться например под рекламные компании так же хорошо, как проекты на JVM. При этом плюсы AOT с Граалем уже доступны для java-мира.
Сергей Горностаев, речь про Oracle GraalVM ?
Сергей Горностаев,
1. STW вроде как концептуально необходим, хоть и можно, например, привязать их к процессорным ядрам, чтобы останавливать не всё, а только часть.
2. Можно конкретный пример?

Профиль выполнения может меняться и если JIT на ходу перекомпилирует код

На что также потребуются ресурсы, чтобы собирать постоянно эту статистику, а тут у нас такая задача, где хочется чуть большей предсказуемости, хоть и может очень редко уступать в производительности жаве.

Да и то что чисто в теории JIT так может - не значит, что разработчики рантайма так станут делать.
В том же .NET, емнип, профиль собирается 1 раз и после этого статистика больше не собирается.
Василий Банников,

STW вроде как концептуально необходим

неа, shenandoah и zgc работают без остановок.

Да и то что чисто в теории JIT так может - не значит, что разработчики рантайма так станут делать.

Как классические C1 и C2, так и новый граалевский jit'ы постоянно перегенерируют машинный код под текущий профиль. Если сценарий нагрузки меняется, ресурсы потратятся на новый прогрев, но оно того стоит.
Иван Мельников, он уже не оракловый, в прошлом году они его передали в опенсорс.
Сергей Горностаев,

неа, shenandoah и zgc работают без остановок.

Спс, почитаю.
Сергей Горностаев,

Если сценарий нагрузки меняется, ресурсы потратятся на новый прогрев, но оно того стоит.

Тут сценарий выглядит как раз так, будто профиль вообще не будет меняться
Василий Банников, я бы тогда на Rust посмотрел, как дрочер на функциональщину )

Answer 1 · 2024-01-21 19:10:10

Ответ: Для экстремально быстрой online-аналитики нужны экстремально быстрые инструменты

Если серьезно, то когда речь заходит о хайлоаде, то нет готовых решений. Все приходится писать самим и тюнить весь софт под свои нужды.
Чтобы помочь надо знать контекст, а "чем быстрее, тем лучше" - у всех так.

Все что могу предложить:
- Горизонтально масштабировать софт, который эти данные от источников читает
- Использовать ClickHouse для хранения данных

Почему ClickHouse:
- Создан для OLAP задач
- Имеет поддержку шардирования причем шарды независимы - не нужно тратиться на синхронизацию

P.S. если это задача по трейдингу, то советую копать в сторону HFT

Answer 2 · 2024-01-21 19:36:28

"экстремально" - это имеет какое-то численное значение?

- Под экстремально быстрой аналитикой я подразумеваю "чем быстрее, тем лучше". Например, 1 мс будет сильно лучше 10 мс.

Тут лучше сказать, какой вариант будет точно неприемлимым и на сколько сложные вычисления нужно успеть выполнить.

- Под данными подразумеваются market data от множества различных независимых источников.

А этот самый market data вам уже приходить с экстремально низкой задержкой?

low latency

Отсекаем все языки со сборкой мусора, тк у них будет происходить вполне очевидная пауза.
Отсекаем все незрелые.
И вот у нас остаётся небольшой выбор: C, C++, Rust, Zig - компилируемые императивные языки без сборки мусора.

В целом выглядит как HFT, а значит и решения нужно брать те, которые активно в HFT используют.
Без конкретики - ничего конкретного посоветовать нельзя.

Answer 3 · 2024-01-21 19:36:34

При расчете аналитики (min/max/avg) и прочих оконных функций сам алгоритм имеет лаг.
Тоесть ты должен понимать что за 1 мс ты можешь анализировать данные в прошлом за окно
размером к примеру в 100мс.

Нельзя выводить точную аналитику на основе мгновенного значения.

Какие есть инструменты и решения для экстремально быстрой online-аналитики потоковых данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт