Задать вопрос

web3_Venture @web3_Venture

базы-данных

System Design задержка ETL перед записью в базу, (Kafka, Spark) как?

Привет, очень простой, но глобальный вопрос.
Допустим нужно считать колво всего просмотров для каждого юзера, но этих просмотров может генерироваться миллионы. Если использовать просто KAFKA sink в базу, то на каждый чих будет происходить в базу UPDATE.
Я ищу такое ETL решение которое умеет делать join,aggregate,window и главное делать вроде задержек: тоесть агрегирует результаты (например с лимитами не больше минуты или не больше 1000 сообщений) и делает только потом ФИНАЛЬНЫЙ FLUSH.

Пример:

Тут приходят сообщения для каждого юзера на каждый просмотр, потом мы их группируем по юзерID и делаем условие FLUSH (не больше 100 сообщений или не дольше 10 минут), после чего на выходе мы получаем результат всего пару финальных сообщений за эти 10 минут , и потом уже записываем в базу.

Что я нашел, Apache Spark модуль Spark Streaming, где вроде как раз используется при ETL - Batch подход и этот batch можно как раз настраивать лимитами (по времени или размеру batch). Но это только теория подскажите кто точно знает. Но в этой статье https://www.bigdataschool.ru/blog/spark-streaming-... очень ругают Spark Streaming что это старый везде тормозящий подход и уже никто не использует надо пересаживаться на Structured Streaming , но Structured Streaming походу про реалтайм и не делает то что мне нужно.

Если есть ещё какие ETL инструменты для этой задачи , подскажите.

Вопрос задан более двух лет назад
92 просмотра

2 комментария

Подписаться 1 Сложный 2 комментария

Пригласить эксперта

Ответы на вопрос 1

web3_Venture @web3_Venture Автор вопроса

Не знаю почему сложность проставилась "простой", ну явно это уровень для высоких ребят )

Ответ написан более двух лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Проектирование программного обеспечения

Простой
Как в 2025 году приблизиться к полному CAP (не AP/CP/CA), а именно к CAP?
- 5 подписчиков
- 12 авг.
- 1156 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Средний
Сможет ли кластер minio выдержать 60000 клиентов, стримящих данные?
- 2 подписчика
- 03 авг.
- 295 просмотров
3

ответа
C#

+1 ещё

Простой
Как спроектировать домены?
- 3 подписчика
- 26 июл.
- 173 просмотра
0

ответов
Проектирование программного обеспечения

Простой
Как общаются микросервисы в реальных проектах?
- 2 подписчика
- 13 июл.
- 6887 просмотров
5

ответов
Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 82 просмотра
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 164 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4813 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 380 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 209 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽