@DVoropaev
Ставлю + к карме на хабре за ответы на вопросы

Как интерпретировать load average?

8 процессоров по 4 ядра в каждом

uptime выдает 4.42, 4.80, 4.71
zabbix выдает 0.68, 0.68, 0,67

как эти данные интерпретировать, и какой диапазон считать нормой?
  • Вопрос задан
  • 991 просмотр
Пригласить эксперта
Ответы на вопрос 3
@hx510b
"Я знаю, что ничего не знаю"
Сложное объяснение, но видимо методически правильное есть в статье https://habr.com/company/mailru/blog/335326/
Как показывает практика - LA связан не только с вычислительной нагрузкой на CPU, но зависит и от ввода вывода и других факторов состояния системы.
При определенных обстоятельствах вполне можно наблюдать LA в несколько тысяч, при фактически не загруженных процессорах и обычном количестве и состоянии процессов.

Я для себя LA интерпретирую как комплексный показатель нагрузки на систему.
Упрощенно можно воспринимать как некий эфемерный показатель длины очереди процессов на исполнение - это условное заведомо неверное толкование, но вполне применимое в реальной работе.
Интерпретация значений LA:
Где значения от 0 до 1 указывают на не нагруженную систему близкую к простою.
Значения от 1 до 10 - как умеренно нагруженную систему. Все нормально.
Значения от 10 до 30 - как высоконагруженную систему. Не следует добавлять нагрузку. Можно подумать о поиске оптимизации нагрузки. Оптимизация рекомендуется.
Значения от 30 до 100 - как чрезмерно нагруженную систему, например, причиной может быть большая доля iowait из-за перегрузки - большое количество потоков ввода вывода на одно блочное устройство, аномально медленная работа блочного устройства из-за неисправности, другие подобные причины, связанные с возникновением "бутылочного горлышка" в системе, которое надо расшивать - при таких значениях LA - производительность неэффективная. Оптимизация необходима.
Значения выше 100 - следует воспринимать как аварийное состоянии системы с точки зрения производительности. Нужно принимать меры безотлагательно.
Значения выше 1000 - и дальнейший рост LA ведут к падению ядра, как правило, падение системы происходит в течении ближайших нескольких часов. Требуется экстренная реакция для избежания отказа систем и потери данных.
Границы указаны примерные на основе своего опыта.
Ответ написан
Комментировать
Melkij
@Melkij
PostgreSQL DBA
и какой диапазон считать нормой?

Смотрите на график. Если не выделяется на общем фоне и система работает нормально - значит это и есть норма для вашей системы.
Абстрактного значения нормы LA нет.

https://www.zabbix.com/forum/zabbix-troubleshootin...
Template OS Linux uses normalized CPU load (percpu), while top shows total load. Normalized load = total load divided by online CPU count.

У вас действительно 8-сокетная железка? 32 ядра в сумме? Вычисление немного не сходится просто.
Ответ написан
Комментировать
@lega
uptime выдает цифры для среднего в 1мин, 5мин и 15мин. число означает кол-во "съеденых" ядер в единницу веремни.
т.е. если у вас 8 рабочих ядер, и значение = 8, то процессор работает в 100% (т.е. процессора как раз хватает для задач, но нет запаса), если значение 4, то 50% нагрузки, если значение 16, то процессор работает в 100% и ещё столько же (ещё 100%) задач простаивает, ждет процессора, т.е. процессор не справляется в 2 раза и при большем кол-ве ядер задачи отрабатывали бы быстрее.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы