Как лучше организовать очередь сообщений для их разбора по графику?

Question

gitPush @gitPush

Как лучше организовать очередь сообщений для их разбора по графику?

По REST API приходят 10-50 тыс. запросов в минуту.
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
Real-time не нужен, достаточно раз в минуту их обрабатывать.

Подскажите как лучше это организовать ?
Использовать какой-то готовый инструмент для построения очереди ?
Или просто как-то складывать в файл (на чём такое лучше писать - nodejs, python, go ?), и потом этот файл разбирать по крону ?

Вопрос задан более года назад
624 просмотра

9 комментариев

Подписаться 4 Средний 9 комментариев

szQocks @szQocks

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)

Написано более года назад
d'Ivan @2ord

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?

Написано более года назад
gitPush @gitPush Автор вопроса

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки

Написано более года назад
d'Ivan @2ord

для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?

Написано более года назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.

Написано более года назад
d'Ivan @2ord

Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.

Написано более года назад
d'Ivan @2ord

И как знать какое сообщение является последним?

Написано более года назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)

Написано более года назад
Василий Банников @vabka Куратор тега Веб-разработка

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Написано более года назад

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?
Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки
для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?
Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.
Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.
И как знать какое сообщение является последним?
Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Answer 1 · 2023-08-10 13:55:41

Можно писать в тот же redis, для данных с одинаковым хэшем дублирования не будет. Ну и есть очереди на основе redis разные, зависит от вашего языка.
А так, соглашусь с предыдущим оратором - надо бы разобраться с дублированием, откуда его столько...

Как лучше организовать очередь сообщений для их разбора по графику?

Войдите на сайт