Как решить задачу определения равномерности загрузки кластера?

Question

Snowindy @Snowindy

Как решить задачу определения равномерности загрузки кластера?

Запускаем в разных клиентских окружений несколько аналитических расчетов на кластерах из поднимаемых на время облачных машин.

Хочется по-умному подойти к вопросу эффективности утилизации ресурсов.
В распределенных вычислениях очень важно, чтобы не было ситуации, когда одна машина делает работу, а все остальные ее ждут.

Задачу можно представить формально:
Сравнивая графики утилизации некоего ресурса (к примеру, CPU) каждой из кластерных машин, можно вывести коэффициент равномерности загрузки. Если графики утилизации у всех машин примерно совпадают, можно сделать предположение, что такой кластер более эффективно распределяет нагрузку, по сравнению с ситуацией, когда графики утилизации совпадают хуже.

Получив для каждого запуска расчета такой индекс эффективности, можно значительно улучшить понимание того, какой расчет стоит улучшать в первую очередь.

Перед тем, как начать самим придумывать такую библиотеку, хотелось бы узнать, есть ли в природе проекты, решающие такую задачу? Идея не выглядит как что-то экстраординарное.

Вопрос задан более трёх лет назад
214 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

7 комментариев

Snowindy @Snowindy Автор вопроса

После разработки и запуска задачи, естественно, специалист смотрит производительность и тюнит алгоритм. Но, запуская этот же код на данных другого клиента, или на данных этого же клиента в другое время, можно обнаружить, что из-за data skewness или чего-то подобного - кластер впустую тратит деньги.

Таким образом, у нас сотни запусков N алгоритмов на M клиентах в разное время T. Как в этом случае понять, куда должен идти копать наш специалист со всеми своими инструментами?

Чтобы решить этот вопрос, я предположил, что в распределенных вычислениях можно определить запуски, которые "пахнут", способом в вопросе. Теперь ищу такую библиотечку, чтобы скормить ей метрики машин, и получить на выходе индекс.

// Вообще, задача вообще не про спарк, а про все распределенные вычисления, указал спарк в тегах для большего охвата аудитории. Не очень понимаю, как без таких инструментов серьезно подходить к распределенным вычислениям.

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Snowindy, говорю же есть SparkUI там это все наглядно видно.

Написано более трёх лет назад
Snowindy @Snowindy Автор вопроса

⚡ Kotobotov ⚡, там есть числовая метрика равномерности использования слейвов, правда?

Или вы предлагаете мне метрики со спарка взять и с ними работать? Так метрики - не проблема абсолютно, хоть с прометея, хоть с spark UI, хоть с ганглии - забрать - это вопрос техники. Проблема - аналитический механизм превращения графиков с разных нод в скалярное число, индекс равномерности.

Я ищу такую библиотеку или продукт, чтобы самому не писать. Как и написал в вопросе.

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

Snowindy,
>Проблема - аналитический механизм превращения графиков с разных нод в скалярное число, индекс равномерности.

ну смотря для кого вы это делаете, у разработчиков такой проблемы нет, мы можем по распределению времени работы тасок понять нужно ли тут перебалансировать данные или нет, без всяких аналитических индексов. при этом для реального понимания что делать, все равно нужно будете смотреть на реальное распределение, а не на "индекс".

Написано более трёх лет назад
Snowindy @Snowindy Автор вопроса

Как я сказал выше - индекс подсказывает направление движение для того, чтобы сказать разработчику, какой из многих сотен кластерных джобов работает наиболее неэффективно. Вы ручками ходить по консолям спарка через день окажетесь, и правильно сделаете.

Это надо компании, чтобы в итоге сэкономить деньги, и заплатить годовой бонус разработчику. У которого вообще никаких проблем нет, кроме эмпатии.

Написано более трёх лет назад
⚡ Kotobotov ⚡ @angrySCV

если у тебя очень много джобов, то ты можешь просто включить динамическое перераспределение ресурсов между джобами и вобще не париться.
Такое много где есть, например в спарке

Написано более трёх лет назад
Snowindy @Snowindy Автор вопроса

⚡ Kotobotov ⚡, один джоб - один кластер, поднимаемый только под нужды только этого вычисления, для простоты управления и изоляции проблем.

Но даже если кластер шарится между джобами - находить места проблем не руками - это важно и нужно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Хранение данных

+3 ещё

Сложный
Как разделить хранилище на временно использование?
- 1 подписчик
- 16 сент. 2025
- 137 просмотров
0

ответов
Java

+1 ещё

Простой
Как исправить ошибку компиляции spark?
- 1 подписчик
- более года назад
- 82 просмотра
0

ответов
Apache Spark

Средний
Как исправить ошибку при подключении к hivemetatore из spark?
- 1 подписчик
- более года назад
- 15 просмотров
0

ответов
Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- более года назад
- 36 просмотров
0

ответов
Hyper-V

+1 ещё

Простой
Кластеры и почему они не дешевые?
- 1 подписчик
- более года назад
- 156 просмотров
4

ответа
Кластеры

+2 ещё

Средний
Всем привет. Какой метод лучше всего использовать для кластеризации и как его реализовать (нужно подсчитать количество и размер кластеров)?
- 1 подписчик
- более года назад
- 76 просмотров
1

ответ
Linux

+1 ещё

Средний
Как создать самоподписанные сертификаты для etcd?
- 1 подписчик
- более года назад
- 235 просмотров
1

ответ
Ubuntu

+2 ещё

Средний
Как соединить несколько виртуальных машин в одну локальную сеть и как настроить конфигурацию сети при установке Ubuntu server?
- 2 подписчика
- более года назад
- 2986 просмотров
2

ответа
Виртуализация

+3 ещё

Средний
Какой способ распределения пространства выбрать для бесперебойной работы виртуалок в proxmox?
- 2 подписчика
- более двух лет назад
- 252 просмотра
4

ответа
Linux

+2 ещё

Средний
Почему не получается произвести аутентификацию нод?
- 1 подписчик
- более двух лет назад
- 108 просмотров
0

ответов
Показать ещё Загружается…

DevOps Engineer/DevOps-инженер

ZennoLab • Нижний Новгород

от 150 000 ₽

DevOps - инженер | Dev Ops engineer

Hireway

от 70 000 до 100 000 ₽

VibeCoder / Platform Engineer (Node.js / Kubernetes)

Fabrique • Москва

До 220 000 ₽

Answer 1 · 2022-01-30 14:35:07

проектов нет - ибо программисты пишут корректный алгоримтически и программно грамотный код

пишут же?

а так - APM сервисы, new relic и иже с ними

посмотрите на cpu benchmark и просто разные бенчмарки - нет и не может быть чего-то априорно оценивающего производительность софта на заданном железе - всегда практика оказывается иной

Answer 2 · 2022-01-31 02:42:15

ну вобще этим занимаются специалисты которые разрабатывают задачи для спарка.
поидее, после разработки и запуска задачи, такой специалист может зайти в спакЮИ и посмотреть распределение ресурсов, например оценив время работы у разных тасок.
Есть и другие подходы, но в любом случае этим должен заниматься тот кто задачу для спарка разрабатывает, тк просто знать что у вас не равномерно распределены ресурсы, без такого человека бессмысленно, а у этого человека и так уже есть инструменты для оценки равномерности распределения ресурсов.

Как решить задачу определения равномерности загрузки кластера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт