Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Question

thethanosdaddy @thethanosdaddy

Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Задача:
Спроектировать следующий сервис по описанию. Есть N рабочих мест пользователей, на которых установлены агрегаторы текстовых данных. Данные поступают на сервера и проходят обработку на извлечение текста для дальнейшего полнотекстового поиска. Сервис должен масштабироваться.

За основу я взял микросервисную архитектуру. При этом клиенты только отправляют данные и не ожидают никакого ответа. Аналогично и промежуточные сервисы. Масштабирование в моей схеме предполагается за счет повышения производиельности наиболее нагруженных микросервисов (с изменением их "веса" у балансировщика), либо за счет увеличения их количества. Web-сервер в конце схемы это просто пример конечного пользователя. Там может быть что угодно.

Вопрос задан более трёх лет назад
184 просмотра

Комментировать

Подписаться 2 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

2 комментария

thethanosdaddy @thethanosdaddy Автор вопроса

Клиенты собирают текстовые данные с самого ПК, что печатал, что читал (детали реализации здесь не важны). Затем отправляют данные на сервер, который делает свою часть работы и передает дальше. Конечный пользователь это система, которая отслеживает и предотвращает утечку информации. Но моя задача здесь только работа конкретно с текстом.

Написано более трёх лет назад
Владимир Коротенко @firedragon

thethanosdaddy, ок ищите по dlp системам. Касперский и инфоватч хорошо так описывали. Нгинкс в общем то не так и нужен пишите свой сервер что бы клиенты пушили данные в него. Возможно что и по udp. Fts движков целая куча, только обращаю внимание это не особо нужно. Длп система принимает порцию данных от клиента , и в реалтайме выставляет оценку ну и отправляет оповещение если баллы выше критических

Написано более трёх лет назад

1 комментарий

2 комментария

4 комментария

thethanosdaddy @thethanosdaddy Автор вопроса

"Моя схема" это та, которую вы используете или то, как вы бы сделали мою задачу?

Написано более трёх лет назад
d'Ivan @2ord

thethanosdaddy, это предложение моего видения архитектуры.

Написано более трёх лет назад
d'Ivan @2ord

И уточнение под чтением данных (Б): когда в любой момент времени пользователи заходят в панель админки (или что там у вас будет) через API и видят там результаты агрегации данных. Но необязательно только чтение. Просто по этому пути не должно быть сбора данных от агентов, с которых идет сбор текстовых данных.
И даже это API не обязан быть на том же стеке технологий, как API при сбора данных в режиме записи (А).

Написано более трёх лет назад
thethanosdaddy @thethanosdaddy Автор вопроса

Роман Мирр, а каким образом LB сочетается с MQ брокер?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Телефония

+2 ещё

Средний
Как реализовать инициализацию звонка через Телфин?
- 1 подписчик
- 16 янв.
- 93 просмотра
1

ответ
Сервис-ориентированная архитектура

Простой
Нужен ли микро-сервису отдельный сервер/хост?
- 1 подписчик
- 09 дек. 2025
- 183 просмотра
2

ответа
Node.js

+1 ещё

Простой
Перевод бэкенда с PHP на NodeJs?
- 1 подписчик
- 26 окт. 2025
- 571 просмотр
2

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент. 2025
- 143 просмотра
0

ответов
Node.js

+1 ещё

Простой
Какой локальный backend использовать для готовых admin dashboard?
- 1 подписчик
- 15 авг. 2025
- 167 просмотров
1

ответ
Идентификация пользователей

+1 ещё

Простой
Почему JWT-авторизация использует два раздельных токена (access + refresh), а не один комбинированный?
- 1 подписчик
- 05 авг. 2025
- 335 просмотров
2

ответа
Node.js

+3 ещё

Средний
Как правильно реализовать управление игровыми сессиями в API?
- 1 подписчик
- более года назад
- 198 просмотров
0

ответов
Python

+3 ещё

Простой
Как хранить и показывать локальные файлы в CRM (frontend + backend)?
- 1 подписчик
- более года назад
- 312 просмотров
1

ответ
Telegram

+3 ещё

Средний
Как настроить авторизацию в Telegram Mini Apps?
- 3 подписчика
- более года назад
- 585 просмотров
0

ответов
Веб-разработка

+2 ещё

Простой
Можно ли как-то скрыть пути API запросов, или это вообще не нужно?
- 1 подписчик
- более года назад
- 496 просмотров
4

ответа
Показать ещё Загружается…

Answer 1 · 2021-05-03 11:24:58

Лично я не понимаю что делают клиенты. Скрапят веб и отдают данные на сервер? Или просто принимают данные, а сервер агрегирует и потом отдаёт другим клиентам?

Answer 2 · 2021-05-03 15:04:53

database сервисов полнотекстового поиска это - реплики? Они полностью синхронны, или предполагается механизм партиционирования/шардинга? Этот database вообще можно рассматривать отдельным сервисом (отдельным от сервисов полнотекстового поиска). Благо движков DB имеющих свои механизмы масштабирования достаточно в природе.

Answer 3 · 2021-05-03 16:26:32

Могу заметить, что вы забыли балансировщик перед веб-сервером.
Ну и получается, что самое узкое место - это как раз и есть балансировщик. Если это тупо одна машина, то сервис 100% упадёт.

Answer 4 · 2021-05-03 23:30:05

Моя схема:

Запись данных: Клиенты --> LB --> API --> MQ брокер --> обработчики очереди --> СУБД
То есть API получает данные от клиента, отправляет MQ брокеру (RabbitMQ/Apache Kafka) и сразу отвечает со статусом 200/202.
API и обработчики очереди масштабировать по необходимости. Запись в материализованном представлении данных. СУБД с репликацией master-slave.

Чтение данных: LB --> API --> кэш/СУБД
Здесь можно взять даже какой-нибудь фреймворк типа RoR/Django.

Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт