Как лучше организовать очередь сообщений для их разбора по графику?

Question

gitPush @gitPush

Как лучше организовать очередь сообщений для их разбора по графику?

По REST API приходят 10-50 тыс. запросов в минуту.
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
Real-time не нужен, достаточно раз в минуту их обрабатывать.

Подскажите как лучше это организовать ?
Использовать какой-то готовый инструмент для построения очереди ?
Или просто как-то складывать в файл (на чём такое лучше писать - nodejs, python, go ?), и потом этот файл разбирать по крону ?

Вопрос задан более года назад
537 просмотров

9 комментариев

Подписаться 4 Средний 9 комментариев

szQocks @szQocks

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)

Написано более года назад
d'Ivan @2ord

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?

Написано более года назад
gitPush @gitPush Автор вопроса

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки

Написано более года назад
d'Ivan @2ord

для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?

Написано более года назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.

Написано более года назад
d'Ivan @2ord

Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.

Написано более года назад
d'Ivan @2ord

И как знать какое сообщение является последним?

Написано более года назад
gitPush @gitPush Автор вопроса

Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)

Написано более года назад
Василий Банников @vabka Куратор тега Веб-разработка

Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Написано более года назад

Пригласить эксперта

Ответы на вопрос 5

1 комментарий

4 комментария

gitPush @gitPush Автор вопроса

Клиент использует CRM систему, и там видимо это не баг, а фича - дёргать webhook при каждом изменении сущности. Подписаться, только на нужные события нельзя.
Поправить её не представляется возможным, т.к. это большое saas решение.

Написано более года назад
mayton2019 @mayton2019

gitPush, а какие там запросы? GET? POST?

Написано более года назад
gitPush @gitPush Автор вопроса

POST, данные приходят в json, немного отличается каждый запрос ( как минимум временной меткой )

Написано более года назад
mayton2019 @mayton2019

gitPush, можно взять все оставшиеся поля и сделать из них хеш и сохранить в какую-то табличку. Если хеш уже был - значит такой документ уже обрабатывался.

Логика на вид простая. И очередь не нужна.

Написано более года назад

Комментировать

8 комментариев

gitPush @gitPush Автор вопроса

AWS SQS, RabbitMQ, Apache Kafka - любой подойдёт для данной задачи ?
на чём лучше = на чём возможно такое реализовать ?
например понятно, что php такую нагрузку не выдержит. pascal тоже плохой пример - там плохо с многопоточностью)

Написано более года назад
Дмитрий @iMedved2009

gitPush, а почему пхп не выдержит то?

Написано более года назад
Антон Неверов @TTATPuOT

gitPush, Любой подойдёт. PHP выдержит, как и pascal. Вопрос в том, как вы будете их использовать и как масштабироваться.

Написано более года назад
gitPush @gitPush Автор вопроса

Дмитрий, на сервере установлена связка php-fpm+nginx
то есть при каждом запросе, будет запускаться свой экземпляр php, пару сотен таких одновременно и сервер ляжет.

Написано более года назад
Дмитрий @iMedved2009

gitPush, ну вопрос как быстро отработает ваш скрипт. собственно класть в очередь вы через что будете? тем же php. просто обработка будет происходит в воркере.

сделайте php <?php echo 'Hello world'; ?> и он у вас и 100 тысяч запросов в минуту примет

Написано более года назад
gitPush @gitPush Автор вопроса

Дмитрий,
> ну вопрос как быстро отработает ваш скрипт.
быстро, там практически и будет <?php echo 'Hello world'; ?>
но как я понимаю, тут проблема в накладных расходах на поднятие самого экземлемера php
100 тысяч запросов в минуту - это одновременно ~1,6к экземпляров php

Написано более года назад
Дмитрий @iMedved2009

gitPush, ну во-первых он не будет поднимать особенно если включите static. и он будет их держать поднятыми. во вторых в php-fpm один рабочий процесс может принимать несколько запросов.

Написано более года назад
shurshur @shurshur

gitPush, экземпляр php-интерпретатора на каждый запрос только в php-cgi, для php-fpm и всяких mod_php один процесс будет обрабатывать много запросов (как настроишь столько и будет, главное чтобы памяти хватило).

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+1 ещё

Средний
Как сделать загрузочный экран, чтобы он был виден всем кто онлайн?
- 1 подписчик
- 3 часа назад
- 50 просмотров
1

ответ
Веб-разработка

Простой
Правильная ли структура объекта для multi menu?
- 1 подписчик
- 4 часа назад
- 31 просмотр
0

ответов
Веб-разработка

+1 ещё

Простой
На сайте появились реклама, которая не должна быть?
- 2 подписчика
- вчера
- 254 просмотра
2

ответа
Веб-разработка

+3 ещё

Простой
Какие параметры отвечают за rateLimit в Ingress kuberneties?
- 1 подписчик
- 20 нояб.
- 58 просмотров
2

ответа
Проектирование программного обеспечения

Простой
Почему идентификатор TSID такой?
- 1 подписчик
- 19 нояб.
- 84 просмотра
1

ответ
Веб-разработка

Средний
Как сделать автоматический запуск музыки на сайте с постоянным фоновым воспроизведением?
- 1 подписчик
- 18 нояб.
- 108 просмотров
2

ответа
HTML

+1 ещё

Простой
Вопрос по DIV и uKit (не обращайте внимания на знак вопроса)?
- 1 подписчик
- 15 нояб.
- 118 просмотров
1

ответ
Linux

+2 ещё

Простой
Как поймать, что дает высокий Load Average?
- 3 подписчика
- 12 нояб.
- 585 просмотров
2

ответа
Веб-разработка

Простой
Почему Django загружает не все css файлы?
- 1 подписчик
- 11 нояб.
- 98 просмотров
2

ответа
JavaScript

+2 ещё

Простой
Какой плагин для маски номера посоветуете?
- 3 подписчика
- 11 нояб.
- 318 просмотров
1

ответ
Показать ещё Загружается…

Fullstack разработчик для веб-проектов

Asphera Tech

от 25 000 ₽

Fullstack разработчик (JavaScript, PHP, SQL), веб программист.

CleanTalk

от 1 800 $

Разработчик Drupal ( программист php 7 )

IT House

от 80 000 ₽

Нарисовать проект Площадки для дизайнеров интерьеров

22 нояб. 2024, в 10:19

10000 руб./за проект

Сделать верстку двух страниц из фигмы

22 нояб. 2024, в 09:58

5000 руб./за проект

Доделать проект

22 нояб. 2024, в 09:57

3000 руб./за проект

Обрабатывать нужно все запросы на уровне своего REST API, но на сколько я понял, то ты пытаешься топорным методом решить проблему с большим кол-вом лишних запросов к бэку, если ты например пользуешься nginx то там даже для каждого location - можно настроить лимиты запросов, период между запросами, и т.д ( гугл в помощь ) и если чувак нарушил твои лимиты - просто блочишь все запросы с его ip или проксируешь все дальнейшие его запросы на какой-нибудь чужой api)

Или просто как-то складывать в файл
- а чё не в карман ?)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )
что так? На каком уровне дубли? Всё тело сообщения или какая-то её часть?
Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности. Подписаться, только на нужные события нельзя. Поправить её не представляется возможным, т.к. это большое saas решение.

Тело сообщения - это данные в json, данные совпадают не полностью, т.к. в них есть временные метки
для их разбора по графику
Почему по графику? А просто по мере поступления разве нельзя?
Иерокопус Таманский,
чтобы накопить дубли, чтобы их отбросить и обработать только не задублированные.
важно обработать последний запрос, т.е. последний дубль не пропустить, остальные можно проигнорировать.
Можно ведь не рисковать, а обработать первое сообщение, а остальные отбросить.
И как знать какое сообщение является последним?
Иерокопус Таманский,
никак. копим очередь, отбрасываем все дубли обрабатываем последнее в этой очереди (может оно и будет последним, а может совсем последнее будет в следующей очереди)
Обрабатывать нужно не все, а только ~2% ( так как большинство запросов это дубли )

Может лучше с дублями разобраться? Рейт-лимиты какиенибудь ввести или группировать их?

Клиент использует CRM систему, и там видимо это не баг а фича - дёргать api при каждом изменении сущности.

В таком сценарии я бы взял кафку и просто по очереди все события обрабатывал. Лишние легко можно будет откинуть.

Answer 1 · 2023-07-31 19:13:15

Mors Clamor @66demon666

Сетевой админ, АТС-админ

Выглядит как попытка сделать костыль, не в ту сторону смотрите

Ответ написан более года назад

1 комментарий

Answer 2 · 2023-07-31 20:23:05

Я-бы разобрался с дублями. Если есть система которая продуцирует их - то наверное можно
как-то решить этот вопрос на уровне источника. Это performance issue который нужно обусждать.

Можно строить всякие архитектуры на базе очередей или идемпотентных баз но при этом главная
причина (сетевой траф) будет непофикшена а по сути спрятана под ковер.

Answer 3 · 2023-08-01 09:21:54

Вроде как, такое кол-во запросов вполне по силам современным реактивным серверам. Для тех кто знает Java, пара полезных лекций по реактивщине: раз, два. К сожалению, не нашёл видео с замерами производительности.
Вопрос можно ли обрабатывать запросы по мере их поступления это не вопрос производительности web-сервера, это вопрос как долго ты будет готовить данные для ответа. Если там нет долгих вычислений или запросов к другим сервисам - обрабатывай в реальном времени.
Если есть - используй очередь. Какую именно - вопрос о количестве данных. Если одновременно обрабатываемые данные не помещаются в память - используй Kafka, Rabbit и т.п. Если помещаются - организуй FIFO буфер в памяти, коллекция Queue есть во всех нормальных языках (ну, или её можно сделать на основе связного списка).
Присоединюсь к предыдущим ораторам: надо разбираться с дублями. Ты говоришь что для снижения нагрузки можно отвечать не на все запросы, а только на последний в серии. А как определить что только что прилетевший запрос - последний?
На чём писать - на том что знаешь. А если не получится - искать программиста на Java :)

Answer 4 · 2023-07-31 18:41:51

Антон Неверов @TTATPuOT

https://code.patriotovsky.ru/

Раз в минуту: cron
Очереди: AWS SQS, RabbitMQ, Apache Kafka
Лучше писать на том, что вы знаете и в чём разбираетесь. Хоть pascal.

Ответ написан более года назад

8 комментариев

Answer 5 · 2023-08-10 13:55:41

Можно писать в тот же redis, для данных с одинаковым хэшем дублирования не будет. Ну и есть очереди на основе redis разные, зависит от вашего языка.
А так, соглашусь с предыдущим оратором - надо бы разобраться с дублированием, откуда его столько...

Как лучше организовать очередь сообщений для их разбора по графику?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт