Почему время выполнения программы так сильно различается?

Question

dv0ich @dv0ich

Linux
C++

Почему время выполнения программы так сильно различается?

Есть программа на С++, которая читает размеры и сигнатуры файлов, а также считает их хэши. Я решил распараллелить её посредством std::async. Всё вроде нормально, кроме одного момента: на одних и тех же файлах с одними и теми же результатами программа может выполняться почти на минуту быстрее/дольше:

87,98s user 19,80s system 75% cpu 2:23,52 total
...
76,20s user 17,61s system 113% cpu 1:22,71 total
...
85,96s user 18,13s system 73% cpu 2:20,75 total

И так далее. Я раз 30 прогнал программу, обычно она выполняется за ~2:20, но время от времени - за ~1:20.
Сначала я подумал, что наборы файлов по-разному распределяются по потокам, вставил подсчёт размера набора для каждого потока - оказалось что нет, наборы всегда одинаковые. Но вот время выполнения почему-то разное.
Программа выполняется в Linux, количество потоков в программе равно количеству потоков процессора (в моём случае - 8), целевой каталог с файлами лежит на SATA SSD. Системный кэш между прогонами сбрасывается. Во время всех прогонов состояние системы примерно одинаковое: запущены одни и те же программы, в фоне играет плеер, я смотрю в диспетчер задач. Целевой каталог с файлами, повторюсь, один и тот же, он точно не меняется от прогона к прогону. И результаты работы программы одинаковые полностью.
Подскажите хотя бы примерно, куда смотреть. Может ли это быть результатом ситуативной работы планировщика процессов в Linux? Всё-таки такая большая разница...
Или может быть это из-за того, что в программе широко используются std::unordered_map и std::unordered_set? Я слышал, их реализация далека от идеальной.

Вопрос задан более двух лет назад
567 просмотров

6 комментариев

Подписаться 3 Простой 6 комментариев

res2001 @res2001

Вы же работаете с файлами. Даже при наличии SSD - чтение файлов будет узким местом в программе.
Кроме того сама ОСь и фоновые процессы могут чем-то занимать SSD. Так же ранее прочитанный файл уже может быть в кэше ОС или SSD и тогда он прочитается быстрее в следующий раз.

По хорошему для экспериментов максимально разгрузить диск. Если есть возможность - выделить отдельный физический диск для этих экспериментов .

Я бы для начала сравнил производительность в однопоточной версии и в многопоточной на одном наборе файлов.
Если многопоток не дает увеличения производительности, то возможно что-то работает не так как задумывалось (async не всегда может запускать дополнительные потоки, блокировки/взаимоблокировки потоков и т.п.).
Если все же многопоток дает существеный прирост скорости, то стоит протестировать разное количество потоков и выбрать оптимальное количество, когда последующее увеличение количества потоков не дает увеличения производительности.

Это точно не вина std::unordered_map и std::unordered_set - как бы ни были они написаны, их производительность на одних и тех же данных будет примерно одинаковой.

Написано более двух лет назад
pfg21 @pfg21

res2001, для отвязки от носителя есть tmpfs.

Написано более двух лет назад
res2001 @res2001

pfg21, tmpfs - файловая система в памяти.
Она за одно снимет и ограничения накладываемые дисками, а это не совсем то что нужно.
Разве что посмотреть на максимально возможную производительность.

Написано более двух лет назад
pfg21 @pfg21

res2001, посмотреть связаны ли задержки с работой носителя :)
если разброса задержек не будет - значит виноват подсистема работы с носителем в ядре или что подобное.

Написано более двух лет назад
res2001 @res2001

pfg21, Согласен

Написано более двух лет назад
mayton2019 @mayton2019

А как выглядит функция расчета хеша? Может ее там переписать на асме?

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 3 подписчика
- 21 час назад
- 129 просмотров
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- вчера
- 80 просмотров
4

ответа
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 48 просмотров
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 51 просмотр
1

ответ
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 127 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 138 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 107 просмотров
3

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 298 просмотров
2

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 118 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1083 просмотра
1

ответ
Показать ещё Загружается…

res2001, для отвязки от носителя есть tmpfs.
pfg21, tmpfs - файловая система в памяти.
Она за одно снимет и ограничения накладываемые дисками, а это не совсем то что нужно.
Разве что посмотреть на максимально возможную производительность.
res2001, посмотреть связаны ли задержки с работой носителя :)
если разброса задержек не будет - значит виноват подсистема работы с носителем в ядре или что подобное.
А как выглядит функция расчета хеша? Может ее там переписать на асме?

Answer 1 · 2024-07-01 17:28:43

… 75% cpu 2:23,52 total
… 113% cpu 1:22,71 total
… 73% cpu 2:20,75 total
количество потоков в программе равно количеству потоков процессора (в моём случае - 8…

Похоже, что твоя программа не справляется с загрузкой всех ядер, едва одно ядро она нагружает. Я бы смотрел в то как потоки взаимодействуют друг с другом и искал там явную или скрытую сериализацию.

Answer 2 · 2024-07-01 18:20:37

У вас там работа с диском. Да еще многопоточная. Что там в кеше у SSD окажется, выполняется ли какой-нибудь TRIM в контроллере SSD, индексирует ли что-то какой-нибудь системный процесс, на какое ядро планировщик закинет какие потоки - куча факторов.

Answer 3 · 2024-07-01 17:40:38

Любой вопрос о производительности своего приложения нужно начинать с профилирования.
google: c++ profiler, первая же статья с хабра как пример.

И да отсутствие 100% нагрузки на все ядра уже повод задуматься что что то делаешь не так (или приложение упирается в недостаточно высокую скорость чтения файлов как пример). Кстати напоминаю, современные ядра что у intel что у amd - виртуальные, мало того, есть модели десктопных процессоров, где некоторые ядра не такие же как остальные (читай медленнее) а значит выкачивать 100% эффективности не так просто. Например многопоточные приложения числодробилки я сразу запускаю на 1/2 от количества ядер процессора (иначе можно получить замедление вместо ускорения).

Для начала попробуй зафиксировать для своего однопоточного приложения определенные ядра, например с помощью taskset (google: linux cpu core affinity for specified application). Если делать тупо, то перебирай доступные ядра по одному (может быть по два, так как асинхронные методы могут внутри себя использовать потоки, для реализации асинхронности тех действий для которых они в ОС не реализованы), иначе нужно проанализировать свои ядра по отдельности бенчмарками и принимать решение обосновано.

Почему время выполнения программы так сильно различается?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт