Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Question

thethanosdaddy @thethanosdaddy

Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Задача:
Спроектировать следующий сервис по описанию. Есть N рабочих мест пользователей, на которых установлены агрегаторы текстовых данных. Данные поступают на сервера и проходят обработку на извлечение текста для дальнейшего полнотекстового поиска. Сервис должен масштабироваться.

За основу я взял микросервисную архитектуру. При этом клиенты только отправляют данные и не ожидают никакого ответа. Аналогично и промежуточные сервисы. Масштабирование в моей схеме предполагается за счет повышения производиельности наиболее нагруженных микросервисов (с изменением их "веса" у балансировщика), либо за счет увеличения их количества. Web-сервер в конце схемы это просто пример конечного пользователя. Там может быть что угодно.

Вопрос задан более трёх лет назад
180 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 4

2 комментария

thethanosdaddy @thethanosdaddy Автор вопроса

Клиенты собирают текстовые данные с самого ПК, что печатал, что читал (детали реализации здесь не важны). Затем отправляют данные на сервер, который делает свою часть работы и передает дальше. Конечный пользователь это система, которая отслеживает и предотвращает утечку информации. Но моя задача здесь только работа конкретно с текстом.

Написано более трёх лет назад
Владимир Коротенко @firedragon

thethanosdaddy, ок ищите по dlp системам. Касперский и инфоватч хорошо так описывали. Нгинкс в общем то не так и нужен пишите свой сервер что бы клиенты пушили данные в него. Возможно что и по udp. Fts движков целая куча, только обращаю внимание это не особо нужно. Длп система принимает порцию данных от клиента , и в реалтайме выставляет оценку ну и отправляет оповещение если баллы выше критических

Написано более трёх лет назад

1 комментарий

2 комментария

4 комментария

thethanosdaddy @thethanosdaddy Автор вопроса

"Моя схема" это та, которую вы используете или то, как вы бы сделали мою задачу?

Написано более трёх лет назад
d'Ivan @2ord

thethanosdaddy, это предложение моего видения архитектуры.

Написано более трёх лет назад
d'Ivan @2ord

И уточнение под чтением данных (Б): когда в любой момент времени пользователи заходят в панель админки (или что там у вас будет) через API и видят там результаты агрегации данных. Но необязательно только чтение. Просто по этому пути не должно быть сбора данных от агентов, с которых идет сбор текстовых данных.
И даже это API не обязан быть на том же стеке технологий, как API при сбора данных в режиме записи (А).

Написано более трёх лет назад
thethanosdaddy @thethanosdaddy Автор вопроса

Роман Мирр, а каким образом LB сочетается с MQ брокер?

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 79 просмотров
0

ответов
Node.js

+1 ещё

Простой
Какой локальный backend использовать для готовых admin dashboard?
- 1 подписчик
- 15 авг.
- 121 просмотр
1

ответ
RESTful API

+2 ещё

Простой
Имеет ли смысл реализация REST API через RabbitMQ?
- 2 подписчика
- 11 авг.
- 250 просмотров
1

ответ
Идентификация пользователей

+1 ещё

Простой
Почему JWT-авторизация использует два раздельных токена (access + refresh), а не один комбинированный?
- 1 подписчик
- 05 авг.
- 221 просмотр
3

ответа
Node.js

+3 ещё

Средний
Как правильно реализовать управление игровыми сессиями в API?
- 1 подписчик
- 17 июн.
- 160 просмотров
0

ответов
Python

+3 ещё

Простой
Как хранить и показывать локальные файлы в CRM (frontend + backend)?
- 1 подписчик
- 10 июн.
- 243 просмотра
1

ответ
Telegram

+3 ещё

Средний
Как настроить авторизацию в Telegram Mini Apps?
- 3 подписчика
- 08 июн.
- 520 просмотров
0

ответов
Веб-разработка

+2 ещё

Простой
Можно ли как-то скрыть пути API запросов, или это вообще не нужно?
- 1 подписчик
- 20 мая
- 453 просмотра
4

ответа
Веб-разработка

+1 ещё

Простой
Можно ли обойтись одним сервером для фронта и бэкенда?
- 1 подписчик
- 11 мая
- 1682 просмотра
2

ответа
Java

+2 ещё

Средний
Как выглядит коммуникация между frontend и backend при использовании ZipOutputStream?
- 1 подписчик
- 05 мая
- 186 просмотров
2

ответа
Показать ещё Загружается…

Middle+ PHP Developer

SPIKS • Санкт-Петербург

от 180 000 ₽

Intern Backend Developer (NestJS) One Day Offer

critica agency

До 50 000 ₽

Go-разработчик в команду Поиска ВКонтакте

VK

от 250 000 до 400 000 ₽

Answer 1 · 2021-05-03 11:24:58

Лично я не понимаю что делают клиенты. Скрапят веб и отдают данные на сервер? Или просто принимают данные, а сервер агрегирует и потом отдаёт другим клиентам?

Answer 2 · 2021-05-03 15:04:53

database сервисов полнотекстового поиска это - реплики? Они полностью синхронны, или предполагается механизм партиционирования/шардинга? Этот database вообще можно рассматривать отдельным сервисом (отдельным от сервисов полнотекстового поиска). Благо движков DB имеющих свои механизмы масштабирования достаточно в природе.

Answer 3 · 2021-05-03 16:26:32

Могу заметить, что вы забыли балансировщик перед веб-сервером.
Ну и получается, что самое узкое место - это как раз и есть балансировщик. Если это тупо одна машина, то сервис 100% упадёт.

Answer 4 · 2021-05-03 23:30:05

Моя схема:

Запись данных: Клиенты --> LB --> API --> MQ брокер --> обработчики очереди --> СУБД
То есть API получает данные от клиента, отправляет MQ брокеру (RabbitMQ/Apache Kafka) и сразу отвечает со статусом 200/202.
API и обработчики очереди масштабировать по необходимости. Запись в материализованном представлении данных. СУБД с репликацией master-slave.

Чтение данных: LB --> API --> кэш/СУБД
Здесь можно взять даже какой-нибудь фреймворк типа RoR/Django.

Архитектура сервиса для сбора и обработки текстовых данных. Нужна здоровая критика. /?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт