Верна ли архитектура приложения сбора статистики онлайн пользователей используя Prometheus?

Question

Даша Циклаури @dasha_programmist

ex Software Engineer at Reddit TS/React/GraphQL/Go

Верна ли архитектура приложения сбора статистики онлайн пользователей используя Prometheus?

Коллеги, к вам вопрос, требующий идей/мнений/замечаний в виде ответов.

Моя идея: есть соц. сеть с кучей групп (пять тысяч и более), у группы есть две метрики: кол-во подписчиков и кол-во подписчиков онлайн, мне требуется дергать АПИ соц. сети (1 группа = 1 запрос = 1 ответ с обоими метриками) чтобы чекать эти две метрики и записывать к себе в базу, таким образом иметь статистику по цифрам за долгий период (максимум 1 месяц).
Период получения данных с АПИ = 5 минут
Кол-во запросов к АПИ за 5 минут = 5000+
Клиент моего продукта получает крайние справа данные за сутки/неделю/месяц по названию группы (group_name) в виде графика

Моменты реализации (в моем понимании):

есть некоторая база данных со списком всех групп (mongodb)
есть некоторый воркер, умеющий делать запросы к АПИ и класть данные в очередь
есть некоторый потребитель данных, полученных от АПИ, из очереди, который проверяет - если данные новее предыдущих (просто обработка кейса когда более поздний запрос получил более ранний ответ чем предыдущий), то обновляет; обновление данных планируется производить в redis, таким образом redis умеет хранить словарь самых свежих данных, ключ=group_name значение=пара метрик (кол-во пользователей, кол-во онлайн)
Prometheus для хранения двух метрик users_amount{group=} и users_online{group=}
группы для мониторинга могут добавляться в режиме онлайн
детали реализации АПИ/веб-интерфейса опустим

Открытые вопросы:

Prometheus для такой задачи - это ок?
тысячи лэйблов в Prometheus - это ок? учитывая что по ним независимые запросы, или лучше на кажду группу по две метрики заводить вида users_amount_, users_online_
если в Prometheus настроена pull модель для двух метрик, то он меня будет пинать раз в 5 минут делая два запроса по каждой метрике и я ему отдаю пачкой данные для тысяч лэйблов, у меня верное понимание? или как-то нужно размазать нагрузку? на мой взгляд двумя запросами по трафику будет оптимальнее, чем для каждого лейбла
желательно как можно ровнее размазать запросы уходящие в период пяти минут
5k req/5min = 15-20 req/sec
Какими средствами это лучше делать с заделом на масштабирование воркеров? понимаю, что раз в пять минут нужно класть в очередь пять тысяч элементов, верно ли тогда что тротлинг реализуем внутри воркера? тогда если воркеры не справляются, то очередь растет, то мы реагируем добавлением еще одного воркера

Вопрос задан более трёх лет назад
245 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Решения вопроса 2

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Проектирование программного обеспечения

Простой
На чём писать клиентское приложение с GUI?
- 4 подписчика
- 22 часа назад
- 4131 просмотр
11

ответов
Проектирование программного обеспечения

Простой
Как сделать проект-конструктор с зависимостями на Django с переделкой существующей админки?
- 1 подписчик
- 13 апр.
- 86 просмотров
0

ответов
Проектирование программного обеспечения

Простой
Как разделять относительно одинаковые скрипты между клиентами?
- 2 подписчика
- 03 апр.
- 197 просмотров
3

ответа
Программирование

+2 ещё

Простой
Альтернативы SourceTrail?
- 3 подписчика
- 28 мар.
- 226 просмотров
1

ответ
Мобильная разработка

+1 ещё

Средний
Дальнейшие этапы в создании Приложения после создания прототипа?
- 3 подписчика
- 25 мар.
- 1289 просмотров
8

ответов
Django

+2 ещё

Простой
Веб-приложение на Django и фоновый процесс обработки данных, как сделать?
- 1 подписчик
- 23 мар.
- 143 просмотра
2

ответа
Arduino

+1 ещё

Средний
ARDUINO принципиальная схема подкл. модулей при удаленном доступе посредством Wi-Fi (регулировка яркости светодиода) как сделать?
- 1 подписчик
- 15 мар.
- 70 просмотров
1

ответ
Проектирование программного обеспечения

+1 ещё

Простой
Какой брокер сообщений выбрать под задачу — принять данные по api и записать в базу?
- 3 подписчика
- 07 мар.
- 190 просмотров
2

ответа
Docker

+1 ещё

Простой
Как одновременно работать с одной папкой двум копиям приложения?
- 1 подписчик
- 05 мар.
- 155 просмотров
2

ответа
Python

+3 ещё

Простой
Архитектура взаимодействия aigram с другим микросервисом?
- 1 подписчик
- 04 мар.
- 54 просмотра
2

ответа
Показать ещё Загружается…

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Программист SQL

САМО-Софт • Москва

До 220 000 ₽

Отрисовка дизайна главной и внутренней

19 апр. 2024, в 11:08

5000 руб./за проект

Работы по АСУТП

19 апр. 2024, в 10:59

150000 руб./за проект

Нужен директолог с опытом работы

19 апр. 2024, в 10:02

6000 руб./за проект

Answer 1 · 2020-10-17 08:10:22

Prometheus для такой задачи - это ок?

если речь о временнЫх рядах - это ок,

концептуально я запутался что там у вас - так как проскочило "если, то обновляет", а временные ряды на то и ряды, чтобы дописываться, а не обновлять, но +- стройте, а там сами увидите

вопросы по боттлнекам и рпсам теоретически, увы, нерешаемы, тот же Редис / Монго прекрасно работают на вставку при непрерысном потоке входящих до пока не придется скидывать на диск... хе-хе

поэтому все что вы надумали теоретически проверяется на тестовых данных, ваших тестовых данных, определяются боттлнеки и апдейтится конфинг

конечно, текущая со временем память - увы - только опыт, форумы и бессонные ночи админов

Answer 2 · 2020-10-17 14:55:07

Мне показалось, что архитектура переусложнена. Может, чего-то недопонял. Prometheus метрики забирает (scraping) со всех узлов самостоятельно через http: //apiendpoint/metrics .

То есть схема такова (data flow):
[api 1..N] => Prometheus scraper => Prometheus TSDB

Не понял зачем весь огород с очередями и воркерами. Какую задачу он призван решить?
Прометей не может обращаться напрямую к узлам? А даже если нет, то можно предоставить ему доступ через прокси-сервер.

Клиент моего продукта получает крайние справа данные за сутки/неделю/месяц по названию группы (group_name) в виде графика

Для получения данных есть язык запросов PromQL по API.

В конфигурации Prometheus можно переопределить интервал сбора метрик с узлов. Каждый узел должен уметь отдавать метрики в заданном формате. Благо, есть библиотеки. Средствами библиотеки пишем метрики (новый запрос к АПИ от клиента - делаем increment группе), которые автоматически агрегируются необходимым образом для Prometheus и выдаются по запросу скрэпера. Ответственность за тайминг сбора метрик лежит на Прометее.

Данные временных серий хранятся в БД Prometheus в оптимальном виде. Или в совместимой с ней VictoriaMetrics, если того мало.

Prometheus для хранения двух метрик users_amount{group=} и users_online{group=}

Вроде бы OK.

тысячи лэйблов в Prometheus - это ок?

А зачем тысячи меток? Из-за кол-ва групп?
Цититрую:

CAUTION: Remember that every unique combination of key-value label pairs represents a new time series, which can dramatically increase the amount of data stored. Do not use labels to store dimensions with high cardinality (many different label values), such as user IDs, email addresses, or other unbounded sets of values.

То есть не рекомендуют.

если в Prometheus настроена pull модель для двух метрик, то он меня будет пинать раз в 5 минут делая два запроса по каждой метрике и я ему отдаю пачкой данные для тысяч лэйблов, у меня верное понимание?

Метрики собираются одинажды для узла (endpoint), который должен представлять из себя отдельную группу со своими парами users_amount, users_online. Если так нельзя, то тогда Прометей тогда, наверное, не подходит. По крайней мере, я так себе представляю.

Если по каким-то причинам Прометей не устроит, тогда можете рассмотреть ClickHouse, куда данные нужно отправлять пачками (с воркеров или как хотите). Но тогда всю логику сами разгребать будете. Redis'ом или как хотите.

Верна ли архитектура приложения сбора статистики онлайн пользователей используя Prometheus?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт