Правильная архитектура сканнера арбитражных ситуаций?

Question

froggyMan @froggyMan

Правильная архитектура сканнера арбитражных ситуаций?

Приветствую всех участников сообщества! Хочу воплотить в реальность свое давнее желание: написать свой собственный сканнер коэффициентов букмекерских контор. Задача не из простых. Краткое пояснение для тех кто не знает что это. Сканнер букмекерских контор (он же "вилочный сканнер") - это парсер который ежесекундно парсит коэффициенты сотен событий на десятках букмекерских контор. Далее он "склеивает" все события и ищет между ними т.н. "арбитражные ситуации". Думаю - в целом задача понятна. И важный нюанс: речь идет о т.н. live-событиях. Т.е. события, которые идут прямо сейчас.

Думаю над правильной архитектурой такого сервиса. Какие пока мысли:

Изначально отказаться от стандартных СУБД (like MySQL), ибо в базу ежесекундно (а то и чащще!) нужно скидывать текущие значения коэффициентов с тысяч событий. (К примеру - в субботний вечер в час пик на разных конторах транслируется 200 событий на разные виды спорта. Нужно например парсить 30 контор. 200*30 = 6 000 трансляций. А контор, необходимых для сканирования - гораздо больше 20). Конечно же коэффициенты обновляются не каждую секунду. Но на динамичных видах спорта - очень часто. И нужно рассчитывать на то что в такую базу будет прилетать 6000 запросов обновления в секунду.
Продолжение п.1: вместо стандартной БД использовать "In memory DB", т.е. что то, что висит в оперативке и обновляет данные максимально быстро. Сохранность данных здесь вообще не важна, ибо через 3 секунды актуальность данных уже пропадает.
С одной стороны в эту базу будут писать данные парсеры, с другой стороны ежесекундно к этой базе ежесекундно будет обращаться функция построения итоговой таблицы тех самых арбитражных ситуаций. И уже к этой итоговой таблице будет обращаться вебсервер и по выбранным фильтрам пользователя будет показывать ему таблицу интересующих его вилок/валуев (тех самых арбитражных ситуаций). Кстати - у пользователя будет открыта страница, которая будет рефрешиться тоже раз в секунду. А учитывая что пользователей может быть тысяча - то и таких запросов тоже будет прилетать 1 000 в секунду.
Что касается самого парсинга. Раньше каждую контору парсили по своему: какая то контора обновляла данные через сокеты, какие то - обычными http-запросами. И все существующие подобные сканеры посылали свои запросы через сокеты, или формировали свои http запросы. Но сегодня это все уже работает плохо, ибо конторы защищаются от парсинга разными методами. И самый простой и самый универсальный способ парсить данные - это парсинг браузером. Т.е. вы просто открываете в браузере страницу события и парсите ее. Но конечно же - за такую универсальность придется заплатить ресурсами. Каждая такая страница будет занимать мегабайты в оперативке. Предположим одна страница в среднем занимае 20 МБ оперативки. Тогда предполагаемые 6 000 открытых страниц займут 6 000 * 20 МБ = 120 000 МБ = 120 ГБ оперативки. Конечно, это нужно делать на нескольких серверах.

Какие проблемы я вижу в данной архитектуре:

Насколько я понимаю - если использовать In Memory DB, то и весь процесс парсинга должен происходить в этой же оперативке. И сам вебсервер должен быть на этом сервере. И это конечно же мягко говоря - неудобно) С другой стороны - если процесс парсинга выносить на другие сервера - то как доставлять данные в оперативку, где концентрируются все данные. Это ведь все таки не MySQL. И если под вебсервер выделять отдельный физический сервер - то как он будет получать доступ к InMemory DB, которая крутится в оперативке другого сервера? Вобщем - InMemory DB генерирует как ряд преимуществ, так и ряд проблем)

Прошу у сообщества умных размышлений, советов и критики ))

Вопрос задан более трёх лет назад
493 просмотра

1 комментарий

Подписаться 6 Средний 1 комментарий

mayton2019 @mayton2019

Удивительно что вы пришли сюда с архитектурным вопросом. Да и еще когда тут пахнет деньгами.

Несколько мыслей.

1) Ничего непонятно но жутко интересно. Где-то до 3 пункта было жесткое желание вам посоветовать хорошего С++ разработчика. Но когда вы стали говорить о браузерах - все вернулось взад.

2) Вам нужно собирать данные не обязательно в одну In-Memory Db. Это может быть несколько БД которые являются центрами принятия решений. Подумайте о такой кластеризации.

3) Как быстро вы должны принять решение? Если это не в ту-же секудну - то нужен компромисс. Например eventual consistency. Вы собираете события так быстро как можете но пишете их лог событий с точным временем. Каждый парсер пишет свой лой. По результату - логи сливаете в одну большую базу или табличку и там уже гоняете принятие решений. Это будте наиболее дешево. И In-Memory Db в такой архитектуре не нужно.

4) Вам обязательно нужно собрать макет и смоделировать систему хотя-бы на 2х букмекерах. Дальше - по результатам всё ТЗ нужно пересматривать.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

OTUS

iOS Developer

12 месяцев

Далее
AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Владимир Коротенко @firedragon

vilinyh, ну тогда пусть вкладывается в ресерчь. Бороться против антибана то еще удовольствие

Написано более трёх лет назад
froggyMan @froggyMan Автор вопроса

просто заплатите за api

вот это вызывает улыбку))

Но спасибо за ответ!

Написано более трёх лет назад
froggyMan @froggyMan Автор вопроса

Владимир Коротенко, если, как я сказал, парсить все браузером - то никакого бана не будет. Но парсить браузером - это ресурсоемко.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 116 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Как правильно в EventDriven?
- 1 подписчик
- 26 сент.
- 99 просмотров
2

ответа
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 209 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 188 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 191 просмотр
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 235 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 127 просмотров
1

ответ
1С

+1 ещё

Средний
Дашборд. Какую методу сбора данных и платформу выбрать для разработки?
- 1 подписчик
- 04 сент.
- 177 просмотров
4

ответа
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 215 просмотров
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 557 просмотров
2

ответа
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Москва

До 370 000 ₽

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Удивительно что вы пришли сюда с архитектурным вопросом. Да и еще когда тут пахнет деньгами.

Несколько мыслей.

1) Ничего непонятно но жутко интересно. Где-то до 3 пункта было жесткое желание вам посоветовать хорошего С++ разработчика. Но когда вы стали говорить о браузерах - все вернулось взад.

2) Вам нужно собирать данные не обязательно в одну In-Memory Db. Это может быть несколько БД которые являются центрами принятия решений. Подумайте о такой кластеризации.

3) Как быстро вы должны принять решение? Если это не в ту-же секудну - то нужен компромисс. Например eventual consistency. Вы собираете события так быстро как можете но пишете их лог событий с точным временем. Каждый парсер пишет свой лой. По результату - логи сливаете в одну большую базу или табличку и там уже гоняете принятие решений. Это будте наиболее дешево. И In-Memory Db в такой архитектуре не нужно.

4) Вам обязательно нужно собрать макет и смоделировать систему хотя-бы на 2х букмекерах. Дальше - по результатам всё ТЗ нужно пересматривать.

Answer 1 · 2022-07-07 20:23:11

Теория без практики это отстой

Изначально отказаться от стандартных СУБД (like MySQL), ибо в базу ежесекундно (а то и чащще!) нужно скидывать текущие значения коэффициентов с тысяч событий. (К примеру - в субботний вечер в час пик на разных конторах транслируется 200 событий на разные виды спорта. Нужно например парсить 30 контор. 200*30 = 6 000 трансляций. А контор, необходимых для сканирования - гораздо больше 20). Конечно же коэффициенты обновляются не каждую секунду. Но на динамичных видах спорта - очень часто. И нужно рассчитывать на то что в такую базу будет прилетать 6000 запросов обновления в секунду.

Это вообще не нагрузка для сервера.

Продолжение п.1: вместо стандартной БД использовать "In memory DB", т.е. что то, что висит в оперативке и обновляет данные максимально быстро. Сохранность данных здесь вообще не важна, ибо через 3 секунды актуальность данных уже пропадает.

Да это разгрузит немного, но опять же нужно вовремя сбрасывать данные и греть кэш

С одной стороны в эту базу будут писать данные парсеры, с другой стороны ежесекундно к этой базе ежесекундно будет обращаться функция построения итоговой таблицы тех самых арбитражных ситуаций. И уже к этой итоговой таблице будет обращаться вебсервер и по выбранным фильтрам пользователя будет показывать ему таблицу интересующих его вилок/валуев (тех самых арбитражных ситуаций). Кстати - у пользователя будет открыта страница, которая будет рефрешиться тоже раз в секунду. А учитывая что пользователей может быть тысяча - то и таких запросов тоже будет прилетать 1 000 в секунду.

денормализуйте базу, уберите лишние индексы, создайте ноды только для чтения

Что касается самого парсинга. Раньше каждую контору парсили по своему: какая то контора обновляла данные через сокеты, какие то - обычными http-запросами. И все существующие подобные сканеры посылали свои запросы через сокеты, или формировали свои http запросы. Но сегодня это все уже работает плохо, ибо конторы защищаются от парсинга разными методами. И самый простой и самый универсальный способ парсить данные - это парсинг браузером. Т.е. вы просто открываете в браузере страницу события и парсите ее. Но конечно же - за такую универсальность придется заплатить ресурсами. Каждая такая страница будет занимать мегабайты в оперативке. Предположим одна страница в среднем занимае 20 МБ оперативки. Тогда предполагаемые 6 000 открытых страниц займут 6 000 * 20 МБ = 120 000 МБ = 120 ГБ оперативки. Конечно, это нужно делать на

Договаривайтесь, вместо что бы насиловать их сервера просто заплатите за api

Правильная архитектура сканнера арбитражных ситуаций?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт