Как лучше организовать очередь сообщений для их разбора по графику?

Question

gitPush @gitPush

Как лучше организовать очередь сообщений для их разбора по графику?

По REST API приходят 10-50 тыс. запросов в минуту.
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
Real-time не нужен, достаточно раз в минуту их обрабатывать.

Подскажите как лучше это организовать ?
Использовать какой-то готовый инструмент для построения очереди ?
Или просто как-то складывать в файл (на чём такое лучше писать - nodejs, python, go ?), и потом этот файл разбирать по крону ?

Вопрос задан более двух лет назад
685 просмотров

9 комментариев

Подписаться 4 Средний 9 комментариев

szQocks @szQocks

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)

Написано более двух лет назад
d'Ivan @2ord

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?

Написано более двух лет назад
gitPush @gitPush Автор вопроса

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки

Написано более двух лет назад
d'Ivan @2ord

для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?

Написано более двух лет назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.

Написано более двух лет назад
d'Ivan @2ord

Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.

Написано более двух лет назад
d'Ivan @2ord

И как знать какое сообщение является последним?

Написано более двух лет назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)

Написано более двух лет назад
Василий Банников @vabka

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

4 комментария

gitPush @gitPush Автор вопроса

Клиент использует CRM систему, и там видимо это не баг, а фича - дёргать webhook при каждом изменении сущности. Подписаться, только на нужные события нельзя.
Поправить её не представляется возможным, т.к. это большое saas решение.

Написано более двух лет назад
mayton2019 @mayton2019

gitPush, а какие там запросы? GET? POST?

Написано более двух лет назад
gitPush @gitPush Автор вопроса

POST, данные приходят в json, немного отличается каждый запрос ( как минимум временной меткой )

Написано более двух лет назад
mayton2019 @mayton2019

gitPush, можно взять все оставшиеся поля и сделать из них хеш и сохранить в какую-то табличку. Если хеш уже был - значит такой документ уже обрабатывался.

Логика на вид простая. И очередь не нужна.

Написано более двух лет назад

Комментировать

8 комментариев

gitPush @gitPush Автор вопроса

AWS SQS, RabbitMQ, Apache Kafka - любой подойдёт для данной задачи ?
на чём лучше = на чём возможно такое реализовать ?
например понятно, что php такую нагрузку не выдержит. pascal тоже плохой пример - там плохо с многопоточностью)

Написано более двух лет назад
Дмитрий @iMedved2009

gitPush, а почему пхп не выдержит то?

Написано более двух лет назад
Антон Неверов @TTATPuOT

gitPush, Любой подойдёт. PHP выдержит, как и pascal. Вопрос в том, как вы будете их использовать и как масштабироваться.

Написано более двух лет назад
gitPush @gitPush Автор вопроса

Дмитрий, на сервере установлена связка php-fpm+nginx
то есть при каждом запросе, будет запускаться свой экземпляр php, пару сотен таких одновременно и сервер ляжет.

Написано более двух лет назад
Дмитрий @iMedved2009

gitPush, ну вопрос как быстро отработает ваш скрипт. собственно класть в очередь вы через что будете? тем же php. просто обработка будет происходит в воркере.

сделайте php <?php echo 'Hello world'; ?> и он у вас и 100 тысяч запросов в минуту примет

Написано более двух лет назад
gitPush @gitPush Автор вопроса

Дмитрий,
> ну вопрос как быстро отработает ваш скрипт.
быстро, там практически и будет <?php echo 'Hello world'; ?>
но как я понимаю, тут проблема в накладных расходах на поднятие самого экземлемера php
100 тысяч запросов в минуту - это одновременно ~1,6к экземпляров php

Написано более двух лет назад
Дмитрий @iMedved2009

gitPush, ну во-первых он не будет поднимать особенно если включите static. и он будет их держать поднятыми. во вторых в php-fpm один рабочий процесс может принимать несколько запросов.

Написано более двух лет назад
shurshur @shurshur

gitPush, экземпляр php-интерпретатора на каждый запрос только в php-cgi, для php-fpm и всяких mod_php один процесс будет обрабатывать много запросов (как настроишь столько и будет, главное чтобы памяти хватило).

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 238 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 881 просмотр
3

ответа
Проектирование программного обеспечения

Простой
Единые сервисы для нескольких продуктов норм или стрем?
- 1 подписчик
- 21 июн.
- 129 просмотров
3

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3733 просмотра
12

ответов
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 465 просмотров
3

ответа
Django

+2 ещё

Простой
Можно ли на Django сервере разместить базу данных?
- 1 подписчик
- 26 мая
- 197 просмотров
4

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 2 подписчика
- 25 мая
- 513 просмотров
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 227 просмотров
4

ответа
Веб-разработка

+1 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 2 подписчика
- 22 мая
- 250 просмотров
2

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1182 просмотра
4

ответа
Показать ещё Загружается…

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?
Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки
для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?
Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.
Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.
И как знать какое сообщение является последним?
Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Answer 1 · 2023-07-31 19:13:15

Mors Clamor @66demon666

Сетевой админ, АТС-админ

Выглядит как попытка сделать костыль, не в ту сторону смотрите

Ответ написан более двух лет назад

1 комментарий

Answer 2 · 2023-07-31 20:23:05

Я-бы разобрался с дублями. Если есть система которая продуцирует их - то наверное можно
как-то решить этот вопрос на уровне источника. Это performance issue который нужно обусждать.

Можно строить всякие архитектуры на базе очередей или идемпотентных баз но при этом главная
причина (сетевой траф) будет непофикшена а по сути спрятана под ковер.

Answer 3 · 2023-08-01 09:21:54

Вроде как, такое кол-во запросов вполне по силам современным реактивным серверам. Для тех кто знает Java, пара полезных лекций по реактивщине: раз, два. К сожалению, не нашёл видео с замерами производительности.
Вопрос можно ли обрабатывать запросы по мере их поступления это не вопрос производительности web-сервера, это вопрос как долго ты будет готовить данные для ответа. Если там нет долгих вычислений или запросов к другим сервисам - обрабатывай в реальном времени.
Если есть - используй очередь. Какую именно - вопрос о количестве данных. Если одновременно обрабатываемые данные не помещаются в память - используй Kafka, Rabbit и т.п. Если помещаются - организуй FIFO буфер в памяти, коллекция Queue есть во всех нормальных языках (ну, или её можно сделать на основе связного списка).
Присоединюсь к предыдущим ораторам: надо разбираться с дублями. Ты говоришь что для снижения нагрузки можно отвечать не на все запросы, а только на последний в серии. А как определить что только что прилетевший запрос - последний?
На чём писать - на том что знаешь. А если не получится - искать программиста на Java :)

Answer 4 · 2023-07-31 18:41:51

Антон Неверов @TTATPuOT

https://code.patriotovsky.ru/

Раз в минуту: cron
Очереди: AWS SQS, RabbitMQ, Apache Kafka
Лучше писать на том, что вы знаете и в чём разбираетесь. Хоть pascal.

Ответ написан более двух лет назад

8 комментариев

Answer 5 · 2023-08-10 13:55:41

Можно писать в тот же redis, для данных с одинаковым хэшем дублирования не будет. Ну и есть очереди на основе redis разные, зависит от вашего языка.
А так, соглашусь с предыдущим оратором - надо бы разобраться с дублированием, откуда его столько...

Как лучше организовать очередь сообщений для их разбора по графику?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт