Как замерять производительность кода в продакшне?

Question

Q2W @Q2W

Оценка производительности

Как замерять производительность кода в продакшне?

Есть бекенд, на котором крутится много веб-приложений.
Хочется достичь двух целей:
1. Снизить время генерации страницы, чтобы гугл и юзеры полюбили наш сайт.
2. Снизить потребление ресурсов CPU, чтобы меньше бекендов нужно было.

Так вот внедряя разные оптимизации в коде мы обычно делаем разные замеры.
Чаще всего замеряем просто среднее кол-во времени, необходимое на обработку одного http-запроса.

Среднее за сутки, т.к. за бОльшее кол-во времени слишком долго ждать. Ну и вообще хотелось бы как-то сделать так, чтобы и суток не нужно было ждать - посмотрел 5 минут, пособирал данные, вычислил среднее, и делаешь вывод - улучшилась производительность или ухудшилась.

Так вот время выполнения сферического алгоритма зависит в т.ч. от нагрузки на сервер. Т.е. можно что-то изменить в коде, выкатить в продакшн, и увидеть, что нагрузка изменилась не в ту сторону, в которую на самом деле изменилась эффективность алгоритма, т.к. просто сейчас часпик или день недели такой, что много запросов отправляют пользователи.

Я попробовал замерять только юзерское время (как утилита time замеряет).
Но когда сервер загружен не на 100%, эта метрика так же чувствительна на загруженности сервера (полупустой сервер работает почти в 2 раза быстрее, чем загруженный на 100%).

Загрузкой на 100% здесь можно считать выполнение стольки однопоточных процессов, съедающих всё доступное время процессора, сколько физических процессорных ядер есть на сервере.
Т.е. там, где включен hyperthreading, нужно запустить таких процессов в 2 раза меньше, чем видно ядер, а где выключен - столько же, сколько видно ядер.

Вот так я замерял:

#!/usr/bin/perl

use strict;
use warnings;
use Time::HiRes qw(time);

my $forks = shift;

my $lscpu = `lscpu`;
my($cpus) = $lscpu =~ /^CPU\(s\):\s+(\d)$/m;
my($threadsPerCore) = $lscpu =~ /^Thread\(s\) per core:\s+(\d)$/m;
my $cores = $cpus / $threadsPerCore;

sub load {
	my $a = 0;
	$a += rand() foreach(0 .. 100000000)
}

fork() for (1 .. $forks);

my $u = - times();
my $t = - time();
load();
$u += times();
$t += time();


printf "| %d | %d | %d | %.2f | %.2f |\n", $cpus, $cores, 2 ** $forks, $t, $u;

И вот мои замеры на машине с hyperthreading:

|----|-----|-----|-------|---------|
|CPUs|Cores|Procs| Time  |User time|
|----|-----|-----|-------|---------|
|  4 |  2  |  1  | 11.08 |  11.07  |
|  4 |  2  |  2  | 11.70 |  11.69  |
|  4 |  2  |  4  | 19.79 |  19.64  |
|  4 |  2  |  8  | 39.42 |  19.62  |
|  4 |  2  |  16 | 83.36 |  19.86  |
|----|-----|-----|-------|---------|

И на машине без hyperthreading:

|----|-----|-----|-------|---------|
|CPUs|Cores|Procs| Time  |User time|
|----|-----|-----|-------|---------|
|  2 |  2  |  1  | 23.74 |  23.73  |
|  2 |  2  |  2  | 23.53 |  23.52  |
|  2 |  2  |  4  | 46.78 |  23.38  |
|  2 |  2  |  8  | 93.76 |  23.43  |
|----|-----|-----|-------|---------|

И на этой машине User time везде примерно одинаков!
Но что же не так с первой машиной? Как только я загружаю на ней больше физических ядер, чем у неё есть, user time увеличивается.
Это что? Магия hyperthreading? Но ведь в htop видно, что во время теста загружено лишь одно виртуальное ядро из 4-х.

Запустил на ещё одной машине с hyperthereading:

|----|-----|-----|-------|---------|
|CPUs|Cores|Procs| Time  |User time|
|----|-----|-----|-------|---------|
|  8 |  4  |  1  | 6.23  |  6.18   |
|  8 |  4  |  2  | 6.20  |  6.16   |
|  8 |  4  |  4  | 8.38  |  8.33   |
|  8 |  4  |  8  | 19.95 |  11.90  |
|  8 |  4  |  16 | 33.71 |  11.98  |
|----|-----|-----|-------|---------|

Тут user time растёт пока не загрузим все 8 виртуальных ядер, а не реальных.

Вопрос задан более трёх лет назад
160 просмотров

Комментировать

Подписаться 1 Сложный Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

16 комментариев

Q2W @Q2W Автор вопроса

Нет, всё не так.
Конечно, я собираю телеметрию по конкретным кускам кода. Конкретно - время их выполнения.
Вот сейчас задумался собирать не просто время, а usertime.

Так вот в зависимости от нагрузки на сервер это время меняется. И т.о. я могу что-то соптимизировать, задеплоить, и увидеть ложные тормоза или ложное ускорение, которое связано не с моими изменениями, а с наплывом (или отливом) трафика на сайт.

Достаточно подождать несколько минут, чтобы собрать результаты по десяткам и сотням запросов.

Да достаточно было бы нескольких секунд + время на прогрев после рестарта. Если бы нагрузка была бы равномерной. Но она не. Про это и весь вопрос.

Без спуска на уровень прикладной задачи вряд ли у вас что получится тут узнать.
Это могут быть тупо блокировки.

Да и кто вам сказал, что ваша подсистема спроектирована работать действительно параллельно?

Блокировки быть конечно могут. Но в моём синтетическом тесте их нет (если не считать конкуренцию за процессор), а описываемая проблема есть.

Написано более трёх лет назад
alejandro68 @alejandro68

Q2W,

Да достаточно было бы нескольких секунд + время на прогрев после рестарта. Если бы нагрузка была бы равномерной. Но она не. Про это и весь вопрос.

Это не важно. Вы просто найдите то самое узкое место.
И тогда у вас ускорится и в моменты высоких нагрузок и в моменты низких нагрузок.

Сравнивать что где и как нагружено хорошо для другой задачи - для контроля здоровья системы и для прикидком где какого железа добавить.

Но если вы нацелены на решения проблем прикладной системы, - то для вас полностью бесполезны замеры глобального характера.

Написано более трёх лет назад
alejandro68 @alejandro68

Q2W,

Блокировки быть конечно могут. Но в моём синтетическом тесте их нет (если не считать конкуренцию за процессор), а описываемая проблема есть.

Это слишком синтетический тест.
Ну вот я сейчас напрягу мозги, подключатся коллеги - и мы вам объясним что и где в вашем синтетическом тесте приводит к таким последствиям.

Но это не решит вашу корневую проблему.
Реальные тесты - будут небом и землей по сравнения с синтетическими.

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

Это не важно. Вы просто найдите то самое узкое место.

Приложения большие. Узких мест там полно.
После нахождения предполагаемого узкого места и его исправления надо обязательно проверить результат.
Иначе это и не исправление вовсе.

И тогда у вас ускорится и в моменты высоких нагрузок и в моменты низких нагрузок.

Спасибо, кэп =). Вопрос не в том, как оптимизировать, а в том, как измерять.

Это слишком синтетический тест.
Ну вот я сейчас напрягу мозги, подключатся коллеги - и мы вам объясним что и где в вашем синтетическом тесте приводит к таким последствиям.

Но это не решит вашу корневую проблему.
Реальные тесты - будут небом и землей по сравнения с синтетическими.

Не надо оптимизировать тест. Надо придумать не зависящий от остальной нагрузки метод измерения производительности, который будет давать неизменные результаты для абстрактного кода, который упирается только в CPU.

Написано более трёх лет назад
alejandro68 @alejandro68

Q2W,

Приложения большие. Узких мест там полно.

Все одновременно их мерять - бессмысленно.
Это ничуть не поможет устранить проблему.

Написано более трёх лет назад
alejandro68 @alejandro68

Q2W,

Не надо оптимизировать тест. Надо придумать не зависящий от остальной нагрузки метод измерения производительности, который будет давать неизменные результаты для абстрактного кода, который упирается только в CPU.

В типичном приложении полным полно мест, где тормозит помимо использования CPU по делу:

блокировки и работы с внешними сущностями - диск, сеть.

То есть замеры чисто CPU вам ничего не дадут (ну только если у вас не чисто числодробительное приложение).

Написано более трёх лет назад
alejandro68 @alejandro68

Q2W,

Не надо оптимизировать тест. Надо придумать не зависящий от остальной нагрузки метод измерения производительности, который будет давать неизменные результаты для абстрактного кода, который упирается только в CPU.

Это придумано меного веков назад, называется "скорость".
Нужно разделить время обработки запросов на количество обработанных запросов.
Это число будет инвариантным относительно нагрузки.

Однако в реальных изменениях, даже если исключить работы с сетью и дисками, - вы никак не получите чистого замера на CPU. Так как блокировки (или оверхед на вызов конкурентного кода, например, асинхронным методом, если ваш код работает не истинно-параллельно и без блокировок) внутри исполнения кода на CPU все равно останутся. И эти блокировки/оверхед не будет линейно зависеть от нагрузки.

Точный замер того типа, что вы хотите - можно получить в одном-единственном случае:

Когда число параллельно выполняющихся потоков в вашем прикладном ПО ровно числу физических ядер, доступных вашему ПО. И эти потоки не используют общие данные. И разумеется, исключена конкуренция за диски и сеть. Только в этом случае.

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

alejandro68, Вы читали вопрос-то?
Он не в том, что измерять. А в том, как.
Я измеряю очень много точек в приложениях. Но вопрос не об этом.

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

alejandro68, Я в курсе о том, что может тормозить в приложении.

Просьба: прочитайте вопрос перед тем, как отвечать.

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

alejandro68, Всё, что вы написали, конечно верно, только не имеет отношения к данному вопросу.

Мой вопрос исключительно про нагрузку на CPU. И зависимость там от нагрузки к сожалению далеко не линейная. Я это демонстрирую замерами, которые привожу в запросе.

Пожалуйста, перед тем, как отвечать, ознакомьтесь с вопросом.

Написано более трёх лет назад
xuBpaloLim @xuBpaloLim

Q2W, согласен с Алехандро. То что вы хотите - это какой то абстрактный бред.
Не имеющий ничего общего с решением вашей проблемы

Написано более трёх лет назад
xuBpaloLim @xuBpaloLim

Q2W,
Мой вопрос исключительно про нагрузку на CPU. И зависимость там от нагрузки к сожалению далеко не линейная.

Разумеется, не линейная.
Вам уже ответили:

1) Редкая система способна идеально без блокировок распараллеливаться. Это настолько большая проблема, что многие продукты, рассчитанные на высочайшие нагрузки пишут вообще ОДНОПОТОЧНЫМИ. Например, Tarantool.

2) Чистого процессора не бывает. В реальности процентов 20% производительности гарантировано уходит на ВВОД-ВЫВОД. А бывает и побольше.

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

xuBpaloLim, вычисление рандомного числа в моём тесте способно распараллеливаться сколько угодно, потому что там одна математика.

Ввода-вывода в моём тесте тоже нет.

Написано более трёх лет назад
xuBpaloLim @xuBpaloLim

Q2W, кто вам сказал, что выбранный вами инструмент на это способен????
мы живем не в идеальном мире.
и то, что математически формально независимо, то фактически на уровне реализации - выглядит совсем по другому.

вы бы еще ловили GIL на Python - и удивлялись бы.
;)

Написано более трёх лет назад
Q2W @Q2W Автор вопроса

xuBpaloLim, зачем вы спорите?
Особенно о том, в чём не разбираетесь.

Написано более трёх лет назад
xuBpaloLim @xuBpaloLim

Q2W,

если бы вы разбирались

Не задавали бы вопроса.

А то, что вы не понимаете ответов, то это типичный эффект Данига-Крюгера.

Вам уже второй человек пытается растолковать, а вы рогом уперлись.

Эффе́кт Да́ннинга — Крю́гера — метакогнитивное искажение, которое заключается в том, что люди, имеющие низкий уровень квалификации, делают ошибочные выводы, принимают неудачные решения и при этом не способны осознавать свои ошибки в силу низкого уровня своей квалификации[1]. Это приводит к возникновению у них завышенных представлений о собственных способностях

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Оценка производительности

+1 ещё

Простой
Причина низкой скорости записи Seagate exos x12?
- 1 подписчик
- 07 авг.
- 46 просмотров
0

ответов
Python

+1 ещё

Простой
Какова временная сложность del[pos:] для списка в Python?
- 1 подписчик
- 04 июл.
- 246 просмотров
1

ответ
Видеокарты

+2 ещё

Средний
Бечмарк для ПК 2000 — 2006г?
- 1 подписчик
- 16 мая
- 207 просмотров
4

ответа
Ubuntu

+3 ещё

Средний
Очень сильно тормозит 1с, по тесту Гилева на мощном сервере, как исправить?
- 6 подписчиков
- 14 апр.
- 10622 просмотра
6

ответов
Linux

+2 ещё

Простой
Как проверить производительность конкретного ядра в Linux (intel 12th, Perf/Eff cores)?
- 5 подписчиков
- 26 февр.
- 2516 просмотров
1

ответ
Железо

+1 ещё

Простой
Откуда фризы в играх?
- 1 подписчик
- 29 дек. 2024
- 345 просмотров
2

ответа
Windows

+4 ещё

Средний
В чем может быть причина неадекватной производительности CPU (Intel i5)?
- 2 подписчика
- 02 нояб. 2024
- 3146 просмотров
1

ответ
Мониторы

+2 ещё

Простой
Какие оптимальные настройки для монитора+видеокарта для игр?
- 1 подписчик
- более года назад
- 386 просмотров
0

ответов
Железо

+2 ещё

Средний
Проблемы с производительностью ПК/Windows 11 Pro?
- 2 подписчика
- более года назад
- 648 просмотров
4

ответа
C#

+1 ещё

Средний
Как benchmarkdotnet передает аргументы?
- 1 подписчик
- более года назад
- 44 просмотра
1

ответ
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Разработчик плагина для Wordpress

TripShock Adventures

от 1 200 до 2 500 $

SRE в команду трафика Core Infrastructure

Яндекс • Москва

от 400 000 ₽

Answer 1 · 2017-09-29 19:45:07

Все гораздо проще.

Если ваша проблема производительность - то просто логируйте этапы (с указанием времени) обработки каждого запроса. ОТДЕЛЬНОГО запроса. Потом собираете и анализируйте. Да хоть в Excel.

Вам не нужно мониторить на уровне ядер.
Вам нужно определить - а какое именно место в вашей обработке запроса тормозит.

Уже оттуда и начнете танцевать про ядра и пр.

Среднее за сутки, т.к. за бОльшее кол-во времени слишком долго ждать.

Достаточно подождать несколько минут, чтобы собрать результаты по десяткам и сотням запросов.

Но что же не так с первой машиной? Как только я загружаю на ней больше физических ядер, чем у неё есть, user time увеличивается.
Это что? Магия hyperthreading? Но ведь в htop видно, что во время теста загружено лишь одно виртуальное ядро из 4-х.

Без спуска на уровень прикладной задачи вряд ли у вас что получится тут узнать.
Это могут быть тупо блокировки.

Да и кто вам сказал, что ваша подсистема спроектирована работать действительно параллельно?

Как замерять производительность кода в продакшне?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт