Можно ли с помощью Kafka объединять результаты задач на базе общего id?

Question

Александр Лебедев @sortarage

Я тучка-тучка-тучка, я вовсе не медведь

Kafka

Можно ли с помощью Kafka объединять результаты задач на базе общего id?

Можно ли, используя Kafka, объединить результаты задач в single data entry (например, JSON) на базе определенного параметра (например, order_id)?

То есть, падает в систему order в виде JSON, для его обработки нужно выполнить N задач - какие-то локальные, какие-то ждут ответа от external API, то есть разное время выполнения. Задачи загружаются в Kafka, которая стучится в микросервисы. Каждая задача получает результат тоже в JSON, включая order_id.

Собственно, вопрос можно ли объединить результаты этих задач автоматически, сразу после того как последняя задача order’а выполнена? Если да, то как?

Если я неправильно уловил логику/порядок событий/etc. - пните. Если неправильно выбрал инструмент и это лучше реализовать через решение X - тоже. В остальном, буду благодарен за любой topic/stream-based совет.

Вопрос задан более трёх лет назад
256 просмотров

1 комментарий

Подписаться 5 Средний 1 комментарий

Решения вопроса 1

2 комментария

Александр Лебедев @sortarage Автор вопроса

Спасибо, очень подробный ответ.

Написано более трёх лет назад
Руслан . @LaRN

Примерно похожий вариант использовали, только чтобы не шаманить с офсетами, на случай краша агрегирующего сервиса, все что прилетело в условный Map> сохранял в БД, т.е. был локальный кеш и БД, и коммитили офсет после сохранения в БД. Накладные расходы от БД у нас 20 мс на каждое сообщение, это было приемлемым временем, если это не так, то БД лучше не использовать.

Если агрегирующий сервис падал, то после подъема сервиса он начинал вычитывать кафку и смотреть локальный кеш по order_id и если там пусто, то подтягивал из БД данные по всем незавершенным задачам, если они были.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Python kafka не видит headers?
- 1 подписчик
- 29 сент.
- 144 просмотра
1

ответ
Kafka

Сложный
Как в Apache Kafka изменить состав кворума в хранилище метаданных?
- 1 подписчик
- 22 авг.
- 24 просмотра
0

ответов
Docker

+1 ещё

Простой
Как написать локальный kafka со способом авторизации юзеров: username, password, SASL_SSL, SCRAM-SHA-512?
- 2 подписчика
- 26 апр.
- 882 просмотра
0

ответов
Kafka

Средний
Стоит ли использовать kafka connect в проде?
- 1 подписчик
- 12 мар.
- 105 просмотров
0

ответов
Android

+4 ещё

Средний
Взаимодействие приложения такси с сервером в реальном времени, какие протоколы и технологии использовать?
- 1 подписчик
- 04 янв.
- 341 просмотр
3

ответа
Kafka

Средний
Почему в списке консьюмеров топика новый консьюмер появился только после первого сообщения?
- 1 подписчик
- 03 нояб. 2024
- 38 просмотров
0

ответов
Selenium

+1 ещё

Средний
Есть ли пример авто-теста на Selenide для получения топика Kafka?
- 1 подписчик
- более года назад
- 56 просмотров
0

ответов
Kafka

Простой
Чем отличается Журнал коммитов и Топик в Kafka Apache?
- 1 подписчик
- более года назад
- 43 просмотра
1

ответ
Kafka

Средний
Как победить ошибку при коммите kafka producer transaction?
- 1 подписчик
- более года назад
- 45 просмотров
0

ответов
Kafka

Простой
Как запустить dag airflow по сообщению в kafka?
- 1 подписчик
- более года назад
- 93 просмотра
0

ответов
Показать ещё Загружается…

Full-Stack Разработчик (PHP 8 / Node JS / Vue JS / PostgreSQL)

Складно

от 150 000 ₽

Golang Engineer в команду Отелло

2GIS

До 550 000 ₽

Python Developer в агротех стартап Gros.farm

Gros.farm

от 200 000 ₽

можно ли объединить результаты этих задач автоматически, сразу после того как последняя задача order’а выполнена?
Не уверен, что точно уловил суть вопроса. Уточните коротким примером, пожалуйста.

Answer 1 · 2020-11-16 12:05:13

Вашу задачу в такой постановке вполне можно решить. Вот только склеиванием результатов придётся заниматься вручную.

Создайте топик с результатами и в качестве ключа возьмите order_id. Далее считывайте результаты из топика и складывайте в коллекцию Map<Integer, Set<TaskResult>> (где Integer - order_id). Как только количество элементов в Set станет равным количеству ранее отправленных задач по данному order_id - можно считать, что все ответы получены и передавать их все разом на дальнейшую обработку.

Останется только продумать крайние случаи. Например, нельзя до бесконечности ждать поступления всех результатов - external api может не ответить, а локальная задача вылететь с эксепшеном и не сгенерировать TaskResult. В этом случае количество ответов будет меньше количества отправленных задач. Придется прикручивать таймауты и/или отправлять задачи повторно. А что делать если вдруг ответов поступит больше, чем отправлялось запросов?

Плюс ещё вопрос когда коммитить офсеты. Если сразу, то возникает опасность получить только половину результатов. Например, если сборщик результатов крашнется после того как соберёт первую половину и закоммитит её, то после рестарта он вычитает только вторую половину и никогда не соберёт полный ответ.

Можно создавать отдельный топик под каждый order. Здесь упрощается обработка некоторых corner кейсов, но возникает проблема если order'ов много (сотни тысяч - миллионы).

С kafka streams не работал, но бегло пробежав по документации, могу предположить, что комбинация groupByKey() + reduce() может решить вопрос меньшим количеством кода, чем у предыдущих двух вариантов.

Answer 2 · 2020-11-16 10:56:54

Вопрос сформулирован не понятно. Но в общем Кафка ничего не обьеденяет и никуда не стучится. Кафка это просто распределенный data feeds, очередь сообщений с гарантированной доставкой.

Answer 3 · 2020-11-16 16:23:54

mayton2019 @mayton2019

Bigdata Engineer

Автор не правильно формулирует задачу.

Ответ написан более трёх лет назад

1 комментарий

Можно ли с помощью Kafka объединять результаты задач на базе общего id?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт