Почему время выполнения программы так сильно различается?

Question

dv0ich @dv0ich

Linux
C++

Почему время выполнения программы так сильно различается?

Есть программа на С++, которая читает размеры и сигнатуры файлов, а также считает их хэши. Я решил распараллелить её посредством std::async. Всё вроде нормально, кроме одного момента: на одних и тех же файлах с одними и теми же результатами программа может выполняться почти на минуту быстрее/дольше:

87,98s user 19,80s system 75% cpu 2:23,52 total
...
76,20s user 17,61s system 113% cpu 1:22,71 total
...
85,96s user 18,13s system 73% cpu 2:20,75 total

И так далее. Я раз 30 прогнал программу, обычно она выполняется за ~2:20, но время от времени - за ~1:20.
Сначала я подумал, что наборы файлов по-разному распределяются по потокам, вставил подсчёт размера набора для каждого потока - оказалось что нет, наборы всегда одинаковые. Но вот время выполнения почему-то разное.
Программа выполняется в Linux, количество потоков в программе равно количеству потоков процессора (в моём случае - 8), целевой каталог с файлами лежит на SATA SSD. Системный кэш между прогонами сбрасывается. Во время всех прогонов состояние системы примерно одинаковое: запущены одни и те же программы, в фоне играет плеер, я смотрю в диспетчер задач. Целевой каталог с файлами, повторюсь, один и тот же, он точно не меняется от прогона к прогону. И результаты работы программы одинаковые полностью.
Подскажите хотя бы примерно, куда смотреть. Может ли это быть результатом ситуативной работы планировщика процессов в Linux? Всё-таки такая большая разница...
Или может быть это из-за того, что в программе широко используются std::unordered_map и std::unordered_set? Я слышал, их реализация далека от идеальной.

Вопрос задан вчера
366 просмотров

6 комментариев

Подписаться 2 Простой 6 комментариев

res2001 @res2001

Вы же работаете с файлами. Даже при наличии SSD - чтение файлов будет узким местом в программе.
Кроме того сама ОСь и фоновые процессы могут чем-то занимать SSD. Так же ранее прочитанный файл уже может быть в кэше ОС или SSD и тогда он прочитается быстрее в следующий раз.

По хорошему для экспериментов максимально разгрузить диск. Если есть возможность - выделить отдельный физический диск для этих экспериментов .

Я бы для начала сравнил производительность в однопоточной версии и в многопоточной на одном наборе файлов.
Если многопоток не дает увеличения производительности, то возможно что-то работает не так как задумывалось (async не всегда может запускать дополнительные потоки, блокировки/взаимоблокировки потоков и т.п.).
Если все же многопоток дает существеный прирост скорости, то стоит протестировать разное количество потоков и выбрать оптимальное количество, когда последующее увеличение количества потоков не дает увеличения производительности.

Это точно не вина std::unordered_map и std::unordered_set - как бы ни были они написаны, их производительность на одних и тех же данных будет примерно одинаковой.

Написано вчера
pfg21 @pfg21

res2001, для отвязки от носителя есть tmpfs.

Написано вчера
res2001 @res2001

pfg21, tmpfs - файловая система в памяти.
Она за одно снимет и ограничения накладываемые дисками, а это не совсем то что нужно.
Разве что посмотреть на максимально возможную производительность.

Написано вчера
pfg21 @pfg21

res2001, посмотреть связаны ли задержки с работой носителя :)
если разброса задержек не будет - значит виноват подсистема работы с носителем в ядре или что подобное.

Написано вчера
res2001 @res2001

pfg21, Согласен

Написано вчера
mayton2019 @mayton2019

А как выглядит функция расчета хеша? Может ее там переписать на асме?

Написано вчера

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Linux

+2 ещё

Простой
Как безболезненно переехать с второй версии http nginx на третью и ничего не поломать?
- 1 подписчик
- час назад
- 68 просмотров
1

ответ
C++

+1 ещё

Средний
В каких случаях наследоваться от QObject?
- 1 подписчик
- 14 часов назад
- 60 просмотров
1

ответ
Linux

+2 ещё

Средний
Не работает интернет в PlayOnLinux(Мир Танков). Что делать?
- 1 подписчик
- 19 часов назад
- 77 просмотров
0

ответов
Linux

+2 ещё

Средний
Как настроить маршрутизацию через цепочку серверов?
- 1 подписчик
- вчера
- 110 просмотров
1

ответ
Linux

+1 ещё

Простой
Как настроить базовую конфигурацию для сбора логов в LInux?
- 3 подписчика
- вчера
- 227 просмотров
1

ответ
Linux

+2 ещё

Простой
Линукс перестал видеть ethernet. Что делать?
- 1 подписчик
- вчера
- 167 просмотров
3

ответа
Linux

+1 ещё

Средний
Как узнать все переменные в samba?
- 1 подписчик
- вчера
- 64 просмотра
3

ответа
Windows

+1 ещё

Средний
Почему HBITMAP не записывается в буфер обмена?
- 1 подписчик
- 01 июл.
- 109 просмотров
2

ответа
Linux

+4 ещё

Средний
Как перенести LXC контейнер из Proxmox в Hyper-V?
- 1 подписчик
- 01 июл.
- 106 просмотров
2

ответа
Показать ещё Загружается…

Системный администратор Astra Linux

Гринатом • Новосибирск

До 60 000 ₽

Старший инженер Linux

Интер РАО – Управление сервисами • Москва

от 225 000 ₽

Системный инженер (Windows/Astra Linux)

Гринатом • Новосибирск

До 57 000 ₽

Конвертация из Pinescript в Mql5

03 июл. 2024, в 16:40

4000 руб./за проект

Требуется пересобрать страницу в Tilda

03 июл. 2024, в 16:36

2500 руб./за проект

Нарисовать схему подключения светодиода к DALI-ШИМ преобразателю

03 июл. 2024, в 16:19

1500 руб./за проект

res2001, для отвязки от носителя есть tmpfs.
pfg21, tmpfs - файловая система в памяти.
Она за одно снимет и ограничения накладываемые дисками, а это не совсем то что нужно.
Разве что посмотреть на максимально возможную производительность.
res2001, посмотреть связаны ли задержки с работой носителя :)
если разброса задержек не будет - значит виноват подсистема работы с носителем в ядре или что подобное.
А как выглядит функция расчета хеша? Может ее там переписать на асме?

Answer 1 · 2024-07-01 17:28:43

… 75% cpu 2:23,52 total
… 113% cpu 1:22,71 total
… 73% cpu 2:20,75 total
количество потоков в программе равно количеству потоков процессора (в моём случае - 8…

Похоже, что твоя программа не справляется с загрузкой всех ядер, едва одно ядро она нагружает. Я бы смотрел в то как потоки взаимодействуют друг с другом и искал там явную или скрытую сериализацию.

Answer 2 · 2024-07-01 18:20:37

У вас там работа с диском. Да еще многопоточная. Что там в кеше у SSD окажется, выполняется ли какой-нибудь TRIM в контроллере SSD, индексирует ли что-то какой-нибудь системный процесс, на какое ядро планировщик закинет какие потоки - куча факторов.

Answer 3 · 2024-07-01 17:40:38

Любой вопрос о производительности своего приложения нужно начинать с профилирования.
google: c++ profiler, первая же статья с хабра как пример.

И да отсутствие 100% нагрузки на все ядра уже повод задуматься что что то делаешь не так (или приложение упирается в недостаточно высокую скорость чтения файлов как пример). Кстати напоминаю, современные ядра что у intel что у amd - виртуальные, мало того, есть модели десктопных процессоров, где некоторые ядра не такие же как остальные (читай медленнее) а значит выкачивать 100% эффективности не так просто. Например многопоточные приложения числодробилки я сразу запускаю на 1/2 от количества ядер процессора (иначе можно получить замедление вместо ускорения).

Для начала попробуй зафиксировать для своего однопоточного приложения определенные ядра, например с помощью taskset (google: linux cpu core affinity for specified application). Если делать тупо, то перебирай доступные ядра по одному (может быть по два, так как асинхронные методы могут внутри себя использовать потоки, для реализации асинхронности тех действий для которых они в ОС не реализованы), иначе нужно проанализировать свои ядра по отдельности бенчмарками и принимать решение обосновано.

Почему время выполнения программы так сильно различается?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт