Скорость чистого перебора — как такое может быть?

Question

Adamos @Adamos

Linux
C++

Скорость чистого перебора — как такое может быть?

Преамбула.
Есть программка, делает полный перебор с возвратом и отсечением тупиков. Грубо говоря, решает задачу о рюкзаке в крупном масштабе.
Программа написана на С++ с использованием STL. В процессе перебора память не выделяется, переиспользуется заготовленная, данные невелики и должны попадать в кэш процессора.
Под Linux программа собрана GCC, под Windows - VS2010.

Амбула.
Один и тот же кейс, полный перебор всех вариантов, на Windows занимает 40 - 60 секунд.
На Linux - 11 минут!

Полная амбула.
Та же самая Windows-версия под Wine тормозит ровно так же, как Linux-версия. Соответственно, нюансы компилирования можем свернуть трубочкой.
Если кто-то считает, что разбирается - накиньте идей, в какую сторону вообще думать, поскольку использование именно этой программы именно под Linux предпочтительнее.
Профилирование перебора, очевидно, покажет, что все время жрет перебор, это я и так понимаю...

UPD: профилировка вручную показала довольно забавную штуку, на которой сегодня приходится закончить рабочий день:

// Вот эти строчки кушают под Окошками и под Линем практически одинаково
std::vector< short > update;
std::vector< short >::const_iterator v1 = nextVar.begin(), v2 = already.begin();
std::vector< short >::const_iterator e1 = nextVar.end(), e2 = already.end();
update.reserve(std::min(nextVar.size(), already.size())));

// А вот эти - 11% всего времени перебора под Окошками и 62% - под Линем!
// При том, что тот update УЖЕ имеет достаточный размер и НИКАК не может его превысить
while((v1 != e1) && (v2 != e2)) {
	if(*v1 < *v2) {
		++v1;
	} else if(*v1 > *v2) {
		++v2;
	} else {
		update.push_back(*v1);
		++v1;
		++v2;
	}
}

Код просто делает из двух отсортированных векторов третий, содержащий исключительно совпадающие значения.

Вопрос задан более трёх лет назад
1301 просмотр

49 комментариев

Подписаться 9 Сложный 49 комментариев

Алексей Черемисин @leahch Куратор тега Linux

Насколько я понимаю, программа не запускает потоков, не работает с файлами, а тупо считает. Другими словами просто шуршит по структурам и тупо нагружает CPU, не использует активно системные вызовы ввода/вывода (печать, чтение-запись в файлы, потоки, блокировки, графику и т.д.)...
Если все запускается на одном и том же компьютере, то подразумеваю, проблема может быть в ключах компиляции.
С другой стороны, если и в Wine показывает такие же результаты, то проблема может быть и в ядре и его параметрах компиляции...

И вопрос, так профилировали или нет?
И какая версия ядра, и что за линукс, желательно тоже с версией...

Да, такая сильная разница может быть, если например линукс уходит в swap. Обычно разница в производительности - пара процентов в ту или иную сторону.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Без профилирования это будет тыканьем пальцем в небо.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, такая разница может быть и из-за непопадания в кэш. Данных слишком мало для свопа.
Попробовал собрать программу на Ubuntu 14.04 x32 в виртуалке, запустил - такие же тормоза, увы. Хотя памяти кушает почти вдвое меньше.
Тестирование Windows, кстати, тоже в виртуалке - VB. Но там укладывается в минуту...

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Извиняюсь, еще раз повторюсь ...
И вопрос, так профилировали или нет?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, да профилирую, там не так все тривиально, чтобы тут обсуждать.
Важный, видимо, момент: в программе используется библиотека wxWidgets, и у нее сильно различаются потроха классов под разными системами. Профилировщик большую часть времени показывает на ее функции, в частности - работу со строками. С этим и копаюсь.
Однако тормозов под Wine это ни фига не объясняет, как мы понимаем...

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Стоп-стоп-стоп.... Таки не чистая числодробилка! Давайте-ка отрежем все лишнее, а с GUI уже отдельно заниматься будем.
Потому как в вопросе вы заявили
Профилирование перебора, очевидно, покажет, что все время жрет перебор, это я и так понимаю...

А оно вона чо... Все врут, как говорил Dr. House...

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Немного объясню, вывод графики и GUI в винде и линуксах организован совсем по разному. Первый использует ядро, и не делает при этом резких движений (переключение контекста и прочие хлопоты), а вот второй - использует отдельный пользовательский процесс, XWindow или новомодный Waylang.
В результате, чтобы что-то отобразить, программа шлепает вызов в ядро, ядро отправляет данные другому процессу, переключая на него контекст. Тут и кеши инвалидируются, и регистры и вся эта хрень....

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, программа в процессе отображает ход выполнения, гуй играет только в этом. Но отключение обновления в процессе почти не ускорило работу.
Другое дело, что библиотека может все равно отображать окно программы, и тормозить этим... пороюсь еще.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, выпилите вообще гуй на время, замерьте... Ну и если нужно очень быстро отображать, то лучше это делать через общую память, но это отдельный разговор...

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, как раз это и проблематично. Программа предназначена для работы оператора, который наблюдает за процессом и корректирует. Перебор на больших данных передает привет возрасту вселенной, как известно. Гуй в программе - 90% всего кода, и выкинуть его ой как непросто. По факту, проще выдернуть из программы именно перебор, собрать, подсунуть ему тестовые данные и посмотреть, что получится. И если вдруг получится, что этот кусок работает с одинаковой скоростью, это отнюдь не будет решением моей проблемы ;)

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Ещё идея: тормоза могут быть результатом линуксовых фиксов для spectre/meltdown. Проверить можно отключив эти фиксы параметром загрузки ядра mitigations=off (в ядрах 5.2 и новее, в более старых надо отключать по одному).

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

jcmvbkbc, а на винды в ВиртуалБоксе, запущенном под тем же Линем, они не должны влиять?

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Adamos, а хз, должны или не должны, зависит много от чего. Тут проще попробовать.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

jcmvbkbc, у меня 4.15.119, отключить сложнее, как я понимаю.
Собственно, выше говорил о тесте в старой x32-убунте, там ядро без патчей, но все равно тормоза. Не то.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Волшебной палочки у меня нет, тем более не зная архитектуры программы. Если, как вы утверждали изначально, тормозит именно перебор, то выделив его в отдельный блок, это наверняка сократит волшебные минуты. Для отображения этого процесса в GUI, нужно будет что-то подумать, например не кидать каждое значение, а раз в пол секунды опрашивать...
Да и похоже, при написании пренебрегли паттерном MVC, не отделив данные от считалок и отображения - здесь уж каждый сам себе, злобный Буратино. Тут не палочка нужна, а волшебная дубина.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, дубиной воспользуюсь при осознании ее необходимости.
Программе пятнадцать лет, она в первой версии писалась еще на Дельфях, потом несколько раз переписывалась, и строгость архитектуры обычно приносилась в жертву производительности. Может быть, зря.

Собственно, вопрос задавался не ради волшебных палочек, а чтобы расшевелить мне мозги и ткнуть в то, что я мог упустить. Вы уже весьма в этом помогли ;)

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Я так понимаю, сие изделие написано под WxWidgets? Взглянуть бы, да вынести в отдельный поток считалку...

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, и что это даст? Напоминаю, проблема в том, что под Виндами именно то, что есть, работает быстрее в 10 раз.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Давайте на спор. Я напишу программу, которая в линуксе будет работать в 100 раз быстрее, чем в виндах. Уверяю, у меня это получится! Что это даст? А только то, что я ее напишу херово! Она будет херово работать в линуксе, и в 100 раз херовее в виндах!
Я Вам пытаюсь донести мысль, что проблема не в винде или линуксе - проблема в херовости программы и ее архитектуре!

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, я не так молод, чтобы об этом спорить ;) Желание переписать любую проблемную программу заново, с нуля, более правильно и круто, у меня уже как-то поутихло. Особенно учитывая, что в ней ежедневно работают люди, и неизбежные глюки принесут столь же неизбежные проблемы.
Да и я все-таки не такой херовый программист, чтобы, несколько раз переписывая программу под разные языки и библиотеки, наломать в ней настолько откровенных дров, как вы подозреваете.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, а не вынуждаю Вас переписывать, нужно найти место, где тормозит, понять почему это происходит, и починить. И проблема наверняка не лежит в плоскости линукса!

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, именно этим и занимаюсь. И тоже думаю, что Линукс ни при чем, но городить еще и сборку под Хакинтош для проверки этого считаю лишней потерей времени.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Я уже где-то выше писал, что все системы разные, архитектурно, и если программа должна работать во всех системах, то придется проверять ее во всех системах, увы... Иногда, то, что в одной системе работает быстро, в другой может тормозить так, что повесишься. Часто приходится делать ifdef WIN/LINUX/VXWORKS - далее везде, где-то очереди залипают, где-то семафоры, где-то графика, где-то сеть.
Тем более, если приложение кроссплатформенное... Поэтому ушел я на яву, и не жужжу :-D

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, в этой конкретной программе старался минимизировать различия, просто чтобы доделывая ее в очередной раз, не встать на свои же забытые грабли.
Джава - это хорошо, конечно, но для десктопной программы с богатым нестандартным гуем она не подходит.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Все относительно. В яве очень богатый гуй, особенно на библиотеке javaFx. Да, не всегда хорошо ради простой программы требовать ставить JVM, но если что-то побольше, или "тяп-ляп-продакшион", то очень даже ничего - https://openjfx.io/

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, спасибо, не сегодня ;)

Написано более трёх лет назад
acwartz @acwartz

Если тормозит в вайне и в оригинальной среде линукса, то дело в линуксе и его окружении.
Если что файловая система в винде и линуксе разные, касательно кода, то кросс-платформенный код становится платформенным и дергает нативные методы линукса, которые могут рыботать не правильно под нагрузкой.

Профилировщик ставьте на каждый чих, потом запускайте и читайте километр логов, потом ненужное выпиливайте, перезапускайте. И так методом тыка найдете узкое место. Остальное без читки кода бессмысленно обсуждать, ну разве что помечтать....

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

acwartz, процесс, который тормозит, не трогает ничего платформо-зависимого, кроме гуя, и тот я отключил без видимых результатов.

Написано более трёх лет назад
ComodoHacker @ComodoHacker

Adamos, Выделите минимальный кусок кода, те проблемные строчки, на которые показал профайлер, и скомпилируйте без гуя. Может действительно в нем дело.

Написано более трёх лет назад
ValdikSS @ValdikSS

>Под Linux программа собрана GCC, под Windows - VS2010.
>Та же самая Windows-версия под Wine тормозит ровно так же, как Linux-версия. Соответственно, нюансы компилирования можем свернуть трубочкой.

В Wine используются собственные реализации библиотек. Если у вас программа собрана не статически, а требует какой-то внешний рантайм или библиотеки Windows, убедитесь, что они все используются одинаковые.

Написано более трёх лет назад
Денис Загаевский @zagayevskiy

Подпишусь, пожалуй.
Adamos, не забудьте потом отписаться, в чём дело было, плз)

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Генератор случайных чисел, вычисление времени, gettickcount?

Написано более трёх лет назад
acwartz @acwartz

Adamos,
а вы пробовали скопировать этот проект, удалить весь свой код, собрать и запустить?
Пробовали ли в среде линукса с 0 создать проект, перенести код, собрать и запустить?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

acwartz, нет. Тык-драйвен девелопмент - это не мое.

gbg, если это логическая последовательность, то я не знаю, как ее продолжить. Сдаюсь.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, я говорю о том, что обращения к таймеру и числу тиков на линуксе и венде стоят на порядки разного времени.

Также есть идея о том, что линукс для memcpy зачастую использует DMA

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, я одной и той же функцией (кроссплатформенной, что там под капотом, не уверен) беру миллисекунды до перебора, при запуске каждой вложенной функции, до приведенных участков кода - и после, в конце функций, в конце перебора. Сравниваю то, что намерила самая внутренняя (приведенный код) с тем, что намерила внешняя. Так что разница измерений на разных системах не так критична, вопрос только погрешности, поскольку для такой числодробилки миллисекунда - это до фига времени. Поскольку сейчас я свел этот код к работе со статическим буфером без всякого выделения памяти и при этом стабильно получаю ровно такие же относительные цифры - приходится уже усомниться в полученных данных, поскольку больше просто не в чем.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, вызывать функции замера времени чаще раз в сотни миллисекунд - расточительно и не правильно. У них будет или большое время работы (порядка единиц этих миллисекунд), или погрешность порядка 16 мс, если мы говорим о GetTickCount()

Написано более трёх лет назад
acwartz @acwartz

Adamos, к сожалению тут только игры с кодом проекта и помогут.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, О, попробуйте статически msvcrt слинковать

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, есть предложения, как профилировать код, который успевает сотни раз пробежаться по функциям и циклам за миллисекунду?

попробуйте статически msvcrt слинковать

Куда? Зачем? Вообще-то в VS2010 изначально /MT, но как раз эта сторона у меня "не болеет".

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, смотреть на средние значения по 1000000 прогонов, а также на сам код - что компилятор не отлынивал, а применил развертку циклов, векторизацию и оптимизацию кэша

И еще один лайфхак - сделать тред с busy-wait и максимально точным отсчетом времени, и передавать из него в рабочий поток количество тиков с помощью атомарной переменной.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, по факту, меряя миллисекунды с погрешностью на миллионах прогонов, я так и делал. Результаты - см. UPD в вопросе. Копаться в ассемблерном листинге пока поберегусь.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, ой, знаете, как остойно выглядет ассемблер push_back? выкиньте ее нафиг, раз у вас все преаллоцировано, просто сдвигайте указатель.

И посмотрите, нет ли там в коде детекта процессора и переключения на разный код, скажем, выбора между AVX2 и MMX?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, см. выше: статический буфер - и никаких отличий. Похоже, тут нужно несколько выйти из плоскости оптимизаций. Что-то упущено.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, у вас на каждый push_back делается проверка на то, а не кончился ли буфер, а возле этой проверки тащится несколько сотен инструкций, которые должны мувнуть данные, если таки кончился. Оно вам надо, кэш бессмысленным кодом забивать?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, еще раз: я переделал этот код, он больше не использует вектор, он заполняет статический буфер, который потом, позже, присваивается вектору, который уже сохраняется в стеке вариантов. Но все равно именно на этом куске кода, суммируя разницу в миллисекундах, Линукс насчитывает 68 секунд из 100, затраченных на весь перебор, а Винды - 3 из 75. Стабильно. На одних и тех же данных.

Собственно, сейчас мне статистика показывает, что Винды обычно вызывают этот кусок кода реже - правда, не в 20 раз, а примерно в 4, но все же. Возможно, где-то выше неверно отрабатывает отсечение тупиковых ветвей.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега Linux

Adamos, кстати, да. Баги в программах на линуксе и венде вылезают по разному. А выходной результат хоть совпадает?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

gbg, результат строго идентичен, разница только в затраченном времени.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Раскопал причину разного количества вызовов: разница в std::sort, где по стандарту сохранение порядка "равных" элементов не гарантируется, но MS-компилятор использует алгоритм, который его сохраняет, а GCC - нет.
В результате узлы в виндах шли в перебор отсортированными по фактору перспективности, а потом - по порядку, а в Линуксе - слегка перемешанными, и это для тестового набора данных оказалось менее эффективно, добавляя итераций перебора. В общем случае - не факт, так что никаких особых открытий не случилось.

Привел сортировку к строго одинаковому порядку, замеряю.
Общее время перебора оказалось примерно одинаковым, в виндах чуть больше, зато внутренние функции показывают втрое меньше времени.
Убрал вызовы профайлера, замеряю общее время снова.
Линукс крутит перебор в шесть раз дольше!
Внутренний цикл в виндах отрабатывает примерно тысячу раз за миллисекунду, верить профайлеру приходится с оглядкой. Учитывая разницу в результатах с профайлером и без - он вообще теряет смысл.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Linux для робототехников

3 месяца

Далее
Яндекс Практикум

Фулстек-разработчик

16 месяцев

Далее
Stepik

Пакет курсов по Linux: видеокурс + сертификационные экзамены

1 неделя

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 6

11 комментариев

Adamos @Adamos Автор вопроса

Что делает профайлер с кодом, выполнение которого должно попадать в кэш процессора и сколько времени будет вертеться этот перебор в профайлере - не, не слышали?
Окей, топ-5 вызовов по версии callgrind:
/usr/include/c++/7/bits/stl_iterator.h
/usr/include/c++/7/bits/stl_iterator.h
/usr/include/c++/7/bits/stl_iterator.h
/usr/include/c++/7/bits/stl_iterator.h
/usr/include/c++/7/bits/stl_iterator.h
Я не очень надеюсь что-то в этом увидеть. Может быть, вы просветите?

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, 1. Научитесь пользоваться профайлером, если всё же не желаете использовать метод из моего ответа.
2. Для анализа производительности нужно использовать минимально-необходимый размер входных данных (а не все подряд!).
3. Всегда предоставляйте собранные данные в тексте вопроса.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, если знаете способ научиться пользоваться профайлером так, чтобы библиотечный код под него собирался со всеми оптимизациями, а мой - профилировался, то просветите, как. Многозначительно ходить в белом и я умею.

Перебор на векторах при профилировании превращается в сплошные вызовы функций вместо того, чтобы, как в релиз-версии, заинлайнить это все в прямую работу с памятью. Это - не данные, это мусор.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos,

Многозначительно ходить в белом и я умею.

Перебор на векторах при профилировании превращается в сплошные вызовы функций вместо того, чтобы, как в релиз-версии, заинлайнить это все в прямую работу с памятью. Это - не данные, это мусор.

Не было смысла задавать вопрос.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, я рассчитывал, что тут не только д'Артаньяны и, пока вы не зашли, эти ожидания даже сбывались.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, хотя, если будет линк на репу с кодом, шанс получить нужный Вам ответ значительно возрастёт...

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, не будет.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos,
я рассчитывал, что тут не только д'Артаньяны и, пока вы не зашли, эти ожидания даже сбывались.
проблема у Вас не с кодом, а с постановкой вопроса для решения вашей задачи.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, вот чтобы ее выправить, я и задал вопрос.
Не для того же, чтобы в очередной раз увидеть вашу токсичность.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, Ок. Тогда это спам.

Написано более трёх лет назад
profesor08 @profesor08

xmoonlight, ddos

Написано более трёх лет назад

4 комментария

xmoonlight @xmoonlight

profesor08,
Придется признать победу windows.

Я бы замерил количество итерраций, сколько делает цикл, может он много лишнего делает, раз так в 100.
на основе чего всё это написано?!))))))

Написано более трёх лет назад
profesor08 @profesor08

xmoonlight, плохо пахнущий цикл

Написано более трёх лет назад
xmoonlight @xmoonlight

profesor08, разные блоки кода в цикле в зависимости от ОС или что-то ещё?

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

profesor08, а вы что именно нюхаете? Если приведенный мной код - рекомендую проверить обоняние. Он минимально отличается от приведенного тут, например.

Написано более трёх лет назад

1 комментарий

Adamos @Adamos Автор вопроса
1. Резервирование памяти приведено выше, и этот кусок тратит 3-5% времени независимо от системы.
2. Я писал, что результат для винды - в виртуалке, и тестировал ту же программу, собрав и запустив ее на виртуальной Ubuntu 14.04 x32 - с теми же тормозами.
3. Да, я и пришел к тому, что что-то работает не так. В прошлой версии в этих местах было жесткое порно с памятью вручную, переведя на STL, я смог-таки посмотреть на код с позиции повыше и нашел некоторые высокоуровневые оптимизации, которые при ручной работе с памятью взорвали бы мозг. Видимо, снова пришло время, когда оптимизация не преждевременна...
4.
QMAKE_CXXFLAGS += -std=c++11 CONFIG += mmx CONFIG += sse CONFIG += sse2 QMAKE_CXXFLAGS_RELEASE -= -O1 QMAKE_CXXFLAGS_RELEASE -= -O2 QMAKE_CXXFLAGS_RELEASE -= -O3 QMAKE_CXXFLAGS_RELEASE += -Ofast
Написано более трёх лет назад

1 комментарий

7 комментариев

Adamos @Adamos Автор вопроса
Графическая, без многопоточности.

real 0m58,994s user 0m50,989s sys 0m0,053s
Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Ну как же так! Если графика, то как минимум один тред уже есть!

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, тестовый Windows в виртуалке на одном ядре. Не то.

Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Стоп-стоп-стоп... Вы не путайте ядра процессора и потоки в программе. Ядро может быть и одно, а вот потоков в программе - сотни. И таки да, они тоже переключаются между собой, что в винде, что в линуксах. Не так, как процессы, но переключаются...

Написано более трёх лет назад
Adamos @Adamos Автор вопроса
Алексей Черемисин, человек указывает на то, что Wine использует только одно ядро. Я отвечаю, что Windows - тоже. Но разница десятикратная.
Я отключал в программе обновление окошка, и профайлер таки уткнулся в мои функции, которые гуй не трогают. И time на вариант без обновления пишет то же:

real 10m15,116s user 9m55,908s sys 0m0,168s
Написано более трёх лет назад
Алексей Черемисин @leahch Куратор тега Linux

Adamos, Не верю! Ну вот не верю и все тут. Пишу программы, сервера, гуи и прочую херню уже лет 30. Пишу под винду, линукс, кросспланформенно и не очень. Ну, блин, чтобы вместо 60 секунд было 600 - нужно очень сильно постараться!!!

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

Алексей Черемисин, я постараюсь рассказать, в чем дело, когда (и если) докопаюсь до истины.

Написано более трёх лет назад

15 комментариев

Adamos @Adamos Автор вопроса

Вы невнимательно читали. 15 лет назад она была на Дельфах.
Собирается прямо сейчас на свежайших wxWidgets 3.1.4.
Напоминаю: в Вайне тормозит версия, в которой никакого gtk нет.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, исходник дельфи есть? Соберите на лазарус под линукс.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, он устарел на 15 лет.

Написано более трёх лет назад
acwartz @acwartz

Adamos, если выполняет задачу то можно и собрать. У паскаля прекрасная обратная совместимость...

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

acwartz, он устарел не потому, что паскаль, а потому, что прошло 15 лет и задачи, естественно, поменялись.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, исправьте/допишите код на паскале под нужные актуальные задачи.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, даже не знаю, как вас благодарить.
Мат вроде бы на ресурсе запрещен...

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, тогда учитесь излагать свои мысли и приводить аргументы невозможности использования предложенных Вам методов и без мата.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, а что вы обычно отвечаете людям, которые настойчиво предлагают вам просто выкинуть работу за 15 лет и вернуться к тому говну мамонта, с которого она начиналась? Чур, без мата.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, ну об этом:
выкинуть работу за 15 лет
Вы нигде не писали ещё!
Тогда вопрос: Почему же эта проблема всплыла только сейчас и кто в этом виноват?
Совет: сделайте отдельным модулем (на паскале) вычислительный блок.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight,
— Не ешьте на ночь сырых помидоров, — советовал Остап, — чтоб не причинить вреда желудку.
— Всего хорошего, — говорил Корейко, радостно откланиваясь и шаркая ножкой.
— До свидания, до свидания, — ответствовал Остап, — интересный вы человек! Все у вас в порядке. Удивительно, с таким счастьем — и на свободе.

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos,
тогда учитесь излагать свои мысли и приводить аргументы невозможности использования предложенных Вам методов и без мата.

Написано более трёх лет назад
Adamos @Adamos Автор вопроса

xmoonlight, извините, не могу потратить на общение с вами весь вечер - убегаю на игру.
Спокойной ночи и не забудьте про помидоры!

Написано более трёх лет назад
xmoonlight @xmoonlight

Adamos, Удачи в игре! )

Написано более трёх лет назад
be52 @be52

Если программе реально 15 лет то на современных компах она должна работать намного быстрее, если сейчас она работает 11 секунд то сколько было 15 лет назад??

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
Как добавить в cryptsetup поддержку опции tpm-with-pin в ubuntu 24.04.4?
- 1 подписчик
- 19 апр.
- 107 просмотров
1

ответ
Linux

Средний
Как отладить зависание RK3568 U-boot на Starting kernel?
- 2 подписчика
- 16 апр.
- 98 просмотров
0

ответов
Linux

+2 ещё

Простой
Как исправить интерфейс wireshark?
- 1 подписчик
- 15 апр.
- 230 просмотров
1

ответ
Linux

Простой
На сервере stderr перенаправляется в /dev/null после любой команды. Как решить проблему?
- 2 подписчика
- 10 апр.
- 259 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему появляется ошибка при подключении к базе данных?
- 1 подписчик
- 10 апр.
- 202 просмотра
3

ответа
Linux

+2 ещё

Простой
Как установить лёгкий веб сервер Lighthttpd или его аналоги на микроконтроллер Luckfox Pico Pro/Max?
- 1 подписчик
- 07 апр.
- 196 просмотров
2

ответа
Linux

+3 ещё

Простой
Два компьютера не видят друг друга в локальной сети?
- 4 подписчика
- 30 мар.
- 1031 просмотр
4

ответа
C++

+1 ещё

Простой
Не могу запустить код C++ на VS Code?
- 1 подписчик
- 25 мар.
- 343 просмотра
2

ответа
Linux

+1 ещё

Простой
Можно ли настроить программный RAID в ORICO-9958C3?
- 2 подписчика
- 23 мар.
- 311 просмотров
2

ответа
C++

Простой
Неверное приведение типа через static_cast это UB или его чтение/изменение это UB?
- 1 подписчик
- 21 мар.
- 111 просмотров
1

ответ
Показать ещё Загружается…

Системный администратор Linux (SysOps)

НТЦ ПРОТЕЙ • Санкт-Петербург

До 200 000 ₽

Prompt Engineer (AI / LLM)

infotech • Санкт-Петербург

от 100 000 ₽

Fullstack PHP Laravel/VueJS разработчик

Emsoft

До 150 000 ₽

Насколько я понимаю, программа не запускает потоков, не работает с файлами, а тупо считает. Другими словами просто шуршит по структурам и тупо нагружает CPU, не использует активно системные вызовы ввода/вывода (печать, чтение-запись в файлы, потоки, блокировки, графику и т.д.)...
Если все запускается на одном и том же компьютере, то подразумеваю, проблема может быть в ключах компиляции.
С другой стороны, если и в Wine показывает такие же результаты, то проблема может быть и в ядре и его параметрах компиляции...

И вопрос, так профилировали или нет?
И какая версия ядра, и что за линукс, желательно тоже с версией...

Да, такая сильная разница может быть, если например линукс уходит в swap. Обычно разница в производительности - пара процентов в ту или иную сторону.
Без профилирования это будет тыканьем пальцем в небо.
Алексей Черемисин, такая разница может быть и из-за непопадания в кэш. Данных слишком мало для свопа.
Попробовал собрать программу на Ubuntu 14.04 x32 в виртуалке, запустил - такие же тормоза, увы. Хотя памяти кушает почти вдвое меньше.
Тестирование Windows, кстати, тоже в виртуалке - VB. Но там укладывается в минуту...
Adamos, Извиняюсь, еще раз повторюсь ...
И вопрос, так профилировали или нет?
Алексей Черемисин, да профилирую, там не так все тривиально, чтобы тут обсуждать.
Важный, видимо, момент: в программе используется библиотека wxWidgets, и у нее сильно различаются потроха классов под разными системами. Профилировщик большую часть времени показывает на ее функции, в частности - работу со строками. С этим и копаюсь.
Однако тормозов под Wine это ни фига не объясняет, как мы понимаем...
Adamos, Стоп-стоп-стоп.... Таки не чистая числодробилка! Давайте-ка отрежем все лишнее, а с GUI уже отдельно заниматься будем.
Потому как в вопросе вы заявили
Профилирование перебора, очевидно, покажет, что все время жрет перебор, это я и так понимаю...

А оно вона чо... Все врут, как говорил Dr. House...
Adamos, Немного объясню, вывод графики и GUI в винде и линуксах организован совсем по разному. Первый использует ядро, и не делает при этом резких движений (переключение контекста и прочие хлопоты), а вот второй - использует отдельный пользовательский процесс, XWindow или новомодный Waylang.
В результате, чтобы что-то отобразить, программа шлепает вызов в ядро, ядро отправляет данные другому процессу, переключая на него контекст. Тут и кеши инвалидируются, и регистры и вся эта хрень....
Алексей Черемисин, программа в процессе отображает ход выполнения, гуй играет только в этом. Но отключение обновления в процессе почти не ускорило работу.
Другое дело, что библиотека может все равно отображать окно программы, и тормозить этим... пороюсь еще.
Adamos, выпилите вообще гуй на время, замерьте... Ну и если нужно очень быстро отображать, то лучше это делать через общую память, но это отдельный разговор...
Алексей Черемисин, как раз это и проблематично. Программа предназначена для работы оператора, который наблюдает за процессом и корректирует. Перебор на больших данных передает привет возрасту вселенной, как известно. Гуй в программе - 90% всего кода, и выкинуть его ой как непросто. По факту, проще выдернуть из программы именно перебор, собрать, подсунуть ему тестовые данные и посмотреть, что получится. И если вдруг получится, что этот кусок работает с одинаковой скоростью, это отнюдь не будет решением моей проблемы ;)
Ещё идея: тормоза могут быть результатом линуксовых фиксов для spectre/meltdown. Проверить можно отключив эти фиксы параметром загрузки ядра mitigations=off (в ядрах 5.2 и новее, в более старых надо отключать по одному).
jcmvbkbc, а на винды в ВиртуалБоксе, запущенном под тем же Линем, они не должны влиять?
Adamos, а хз, должны или не должны, зависит много от чего. Тут проще попробовать.
jcmvbkbc, у меня 4.15.119, отключить сложнее, как я понимаю.
Собственно, выше говорил о тесте в старой x32-убунте, там ядро без патчей, но все равно тормоза. Не то.
Adamos, Волшебной палочки у меня нет, тем более не зная архитектуры программы. Если, как вы утверждали изначально, тормозит именно перебор, то выделив его в отдельный блок, это наверняка сократит волшебные минуты. Для отображения этого процесса в GUI, нужно будет что-то подумать, например не кидать каждое значение, а раз в пол секунды опрашивать...
Да и похоже, при написании пренебрегли паттерном MVC, не отделив данные от считалок и отображения - здесь уж каждый сам себе, злобный Буратино. Тут не палочка нужна, а волшебная дубина.
Алексей Черемисин, дубиной воспользуюсь при осознании ее необходимости.
Программе пятнадцать лет, она в первой версии писалась еще на Дельфях, потом несколько раз переписывалась, и строгость архитектуры обычно приносилась в жертву производительности. Может быть, зря.

Собственно, вопрос задавался не ради волшебных палочек, а чтобы расшевелить мне мозги и ткнуть в то, что я мог упустить. Вы уже весьма в этом помогли ;)
Adamos, Я так понимаю, сие изделие написано под WxWidgets? Взглянуть бы, да вынести в отдельный поток считалку...
Алексей Черемисин, и что это даст? Напоминаю, проблема в том, что под Виндами именно то, что есть, работает быстрее в 10 раз.
Adamos, Давайте на спор. Я напишу программу, которая в линуксе будет работать в 100 раз быстрее, чем в виндах. Уверяю, у меня это получится! Что это даст? А только то, что я ее напишу херово! Она будет херово работать в линуксе, и в 100 раз херовее в виндах!
Я Вам пытаюсь донести мысль, что проблема не в винде или линуксе - проблема в херовости программы и ее архитектуре!
Алексей Черемисин, я не так молод, чтобы об этом спорить ;) Желание переписать любую проблемную программу заново, с нуля, более правильно и круто, у меня уже как-то поутихло. Особенно учитывая, что в ней ежедневно работают люди, и неизбежные глюки принесут столь же неизбежные проблемы.
Да и я все-таки не такой херовый программист, чтобы, несколько раз переписывая программу под разные языки и библиотеки, наломать в ней настолько откровенных дров, как вы подозреваете.
Adamos, а не вынуждаю Вас переписывать, нужно найти место, где тормозит, понять почему это происходит, и починить. И проблема наверняка не лежит в плоскости линукса!
Алексей Черемисин, именно этим и занимаюсь. И тоже думаю, что Линукс ни при чем, но городить еще и сборку под Хакинтош для проверки этого считаю лишней потерей времени.
Adamos, Я уже где-то выше писал, что все системы разные, архитектурно, и если программа должна работать во всех системах, то придется проверять ее во всех системах, увы... Иногда, то, что в одной системе работает быстро, в другой может тормозить так, что повесишься. Часто приходится делать ifdef WIN/LINUX/VXWORKS - далее везде, где-то очереди залипают, где-то семафоры, где-то графика, где-то сеть.
Тем более, если приложение кроссплатформенное... Поэтому ушел я на яву, и не жужжу :-D
Алексей Черемисин, в этой конкретной программе старался минимизировать различия, просто чтобы доделывая ее в очередной раз, не встать на свои же забытые грабли.
Джава - это хорошо, конечно, но для десктопной программы с богатым нестандартным гуем она не подходит.
Adamos, Все относительно. В яве очень богатый гуй, особенно на библиотеке javaFx. Да, не всегда хорошо ради простой программы требовать ставить JVM, но если что-то побольше, или "тяп-ляп-продакшион", то очень даже ничего - https://openjfx.io/
Алексей Черемисин, спасибо, не сегодня ;)
Если тормозит в вайне и в оригинальной среде линукса, то дело в линуксе и его окружении.
Если что файловая система в винде и линуксе разные, касательно кода, то кросс-платформенный код становится платформенным и дергает нативные методы линукса, которые могут рыботать не правильно под нагрузкой.

Профилировщик ставьте на каждый чих, потом запускайте и читайте километр логов, потом ненужное выпиливайте, перезапускайте. И так методом тыка найдете узкое место. Остальное без читки кода бессмысленно обсуждать, ну разве что помечтать....
acwartz, процесс, который тормозит, не трогает ничего платформо-зависимого, кроме гуя, и тот я отключил без видимых результатов.
Adamos, Выделите минимальный кусок кода, те проблемные строчки, на которые показал профайлер, и скомпилируйте без гуя. Может действительно в нем дело.
>Под Linux программа собрана GCC, под Windows - VS2010.
>Та же самая Windows-версия под Wine тормозит ровно так же, как Linux-версия. Соответственно, нюансы компилирования можем свернуть трубочкой.

В Wine используются собственные реализации библиотек. Если у вас программа собрана не статически, а требует какой-то внешний рантайм или библиотеки Windows, убедитесь, что они все используются одинаковые.
Подпишусь, пожалуй.
Adamos, не забудьте потом отписаться, в чём дело было, плз)
Генератор случайных чисел, вычисление времени, gettickcount?
Adamos,
а вы пробовали скопировать этот проект, удалить весь свой код, собрать и запустить?
Пробовали ли в среде линукса с 0 создать проект, перенести код, собрать и запустить?
acwartz, нет. Тык-драйвен девелопмент - это не мое.

gbg, если это логическая последовательность, то я не знаю, как ее продолжить. Сдаюсь.
Adamos, я говорю о том, что обращения к таймеру и числу тиков на линуксе и венде стоят на порядки разного времени.

Также есть идея о том, что линукс для memcpy зачастую использует DMA
gbg, я одной и той же функцией (кроссплатформенной, что там под капотом, не уверен) беру миллисекунды до перебора, при запуске каждой вложенной функции, до приведенных участков кода - и после, в конце функций, в конце перебора. Сравниваю то, что намерила самая внутренняя (приведенный код) с тем, что намерила внешняя. Так что разница измерений на разных системах не так критична, вопрос только погрешности, поскольку для такой числодробилки миллисекунда - это до фига времени. Поскольку сейчас я свел этот код к работе со статическим буфером без всякого выделения памяти и при этом стабильно получаю ровно такие же относительные цифры - приходится уже усомниться в полученных данных, поскольку больше просто не в чем.
Adamos, вызывать функции замера времени чаще раз в сотни миллисекунд - расточительно и не правильно. У них будет или большое время работы (порядка единиц этих миллисекунд), или погрешность порядка 16 мс, если мы говорим о GetTickCount()
Adamos, к сожалению тут только игры с кодом проекта и помогут.
Adamos, О, попробуйте статически msvcrt слинковать
gbg, есть предложения, как профилировать код, который успевает сотни раз пробежаться по функциям и циклам за миллисекунду?

попробуйте статически msvcrt слинковать

Куда? Зачем? Вообще-то в VS2010 изначально /MT, но как раз эта сторона у меня "не болеет".
Adamos, смотреть на средние значения по 1000000 прогонов, а также на сам код - что компилятор не отлынивал, а применил развертку циклов, векторизацию и оптимизацию кэша

И еще один лайфхак - сделать тред с busy-wait и максимально точным отсчетом времени, и передавать из него в рабочий поток количество тиков с помощью атомарной переменной.
gbg, по факту, меряя миллисекунды с погрешностью на миллионах прогонов, я так и делал. Результаты - см. UPD в вопросе. Копаться в ассемблерном листинге пока поберегусь.
Adamos, ой, знаете, как остойно выглядет ассемблер push_back? выкиньте ее нафиг, раз у вас все преаллоцировано, просто сдвигайте указатель.

И посмотрите, нет ли там в коде детекта процессора и переключения на разный код, скажем, выбора между AVX2 и MMX?
gbg, см. выше: статический буфер - и никаких отличий. Похоже, тут нужно несколько выйти из плоскости оптимизаций. Что-то упущено.
Adamos, у вас на каждый push_back делается проверка на то, а не кончился ли буфер, а возле этой проверки тащится несколько сотен инструкций, которые должны мувнуть данные, если таки кончился. Оно вам надо, кэш бессмысленным кодом забивать?
gbg, еще раз: я переделал этот код, он больше не использует вектор, он заполняет статический буфер, который потом, позже, присваивается вектору, который уже сохраняется в стеке вариантов. Но все равно именно на этом куске кода, суммируя разницу в миллисекундах, Линукс насчитывает 68 секунд из 100, затраченных на весь перебор, а Винды - 3 из 75. Стабильно. На одних и тех же данных.

Собственно, сейчас мне статистика показывает, что Винды обычно вызывают этот кусок кода реже - правда, не в 20 раз, а примерно в 4, но все же. Возможно, где-то выше неверно отрабатывает отсечение тупиковых ветвей.
Adamos, кстати, да. Баги в программах на линуксе и венде вылезают по разному. А выходной результат хоть совпадает?
gbg, результат строго идентичен, разница только в затраченном времени.
Раскопал причину разного количества вызовов: разница в std::sort, где по стандарту сохранение порядка "равных" элементов не гарантируется, но MS-компилятор использует алгоритм, который его сохраняет, а GCC - нет.
В результате узлы в виндах шли в перебор отсортированными по фактору перспективности, а потом - по порядку, а в Линуксе - слегка перемешанными, и это для тестового набора данных оказалось менее эффективно, добавляя итераций перебора. В общем случае - не факт, так что никаких особых открытий не случилось.

Привел сортировку к строго одинаковому порядку, замеряю.
Общее время перебора оказалось примерно одинаковым, в виндах чуть больше, зато внутренние функции показывают втрое меньше времени.
Убрал вызовы профайлера, замеряю общее время снова.
Линукс крутит перебор в шесть раз дольше!
Внутренний цикл в виндах отрабатывает примерно тысячу раз за миллисекунду, верить профайлеру приходится с оглядкой. Учитывая разницу в результатах с профайлером и без - он вообще теряет смысл.

Answer 1 · 2020-10-18 01:34:29

— Это просто, как блин, — сказал он. — Это тривиально. Это плоско и банально. Это даже неинтересно рассказывать

QtCreator при сборке Release-версии, оказывается, почему-то забывает сообщить своему qmake, что собирается именно Release-версия.
Прописанное в проекте QMAKE_CXXFLAGS_RELEASE += -Ofast - просто игнорируется.
Достаточно заменить его на QMAKE_CXXFLAGS += -Ofast или добавить в вызов qmake CONFIG += release - и собранная программа в Лине на реальном железе, разумеется, сразу кроет виртуальные Винды, как то положено природой.
Достаточно было внимательно заглянуть в вывод сборки, который, внезапно, от переключения между Debug и Release практически не менялся.

А дырочка
И щелочка
И странное отверстьице
Здесь вовсе ни при чем!

Answer 2 · 2020-10-15 14:37:17

В вопросе НЕТ НИКАКИХ СОБРАННЫХ ДАННЫХ, чтобы грамотно и чётко ответить на этот вопрос!
Ни собранных метрик, ни архитектуры, ни используемых технологий, ни тип приложения, ни инструменты компиляции кода, ни репозитория (или структуры), и т.д. - НИЧЕГО этого НЕТ.

Профилирование?! Нет, не слышали. :)
Ок. Сделайте вручную сами: возьмите и добавьте в инкапсулирующие (вызовы объектов) и итерационные вызовы (циклы, рекурсии) тайминги и ID-потоков (и другие метрики, для используемого функционального окружения).
После замера - сами всё увидите.

Профилирование перебора, очевидно, покажет, что все время жрет перебор, это я и так понимаю...

Странно, что только Вы это понимаете! ;)

я постараюсь рассказать, в чем дело, когда (и если) докопаюсь до истины.

...И покажу, что вы все тут нихрена не знаете, а я - д'Артаньян и могу ДАЖЕ! сам ответить на своё жалкое подобие "вопроса"!

UPD:

Код просто делает из двух отсортированных векторов третий, содержащий исключительно совпадающие значения.

тут

Answer 3 · 2020-10-15 23:46:25

Придется признать победу windows.

Я бы замерил количество итерраций, сколько делает цикл, может он много лишнего делает, раз так в 100.

Answer 4 · 2020-10-16 09:15:29

Принты. Или наблюдения.
1. Цикл где идет merge двух векторов - тривиален. Слабым местом может быть функция резерва памяти, которая по разному реализована в win/Linux. Я не утверждаю что в linux она плохая. Возможно просто звёзды сошлись так что page или другие свойства ос по отношению к аллокаций стали неблагоприятны.

2. Что там с разрядностью 32/64? Надо проверить. Что с железом? Не пытается ли автор нас обхитрить, запуская все это на разном железе. Даже ничтожные различия в размере кешей L1 могли тут сработать.

3. Версии STL. Автор использует не сырые указатели а итераторы. Причем хитрые. Какая там логика на инкремент и на разыменование под капотом.

Чтоб отбросить мои предположения полностью - предлагаю этот цикл (предположительно самый горячий код со слов автора) переписать на указатели без STL.

4. Опции GCC надо посмотреть. Оптимизацию подвигать. O1, O2.

Answer 5 · 2020-10-15 11:13:24

Владимир @MechanID

Админ хостинг провайдера

я не настоящий сварщик но... посмотрите в gcc -v есть ли опция "-march=native" ? если нет задайте ее явно при компиляции.

Ответ написан более трёх лет назад

1 комментарий

Answer 6 · 2020-10-15 12:49:02

Ну, я бы посмотрел, сколько потоков порождает программа, и сколько ядер они занимают. Если у Вас на компьютере ядер примерно столько же, во сколько раз различие скорости работы - то имеет смысл смотреть именно сюда (я предполагаю, что WINE может задействовать только одно ядро).

Программа выполняется пакетно, как консольная утилита? Или она графическая?
Может, запустить её через команду time - посмотреть, что та скажет?

Answer 7 · 2020-10-15 15:12:17

Если программе реально 15 лет то скорее всего проблема в wxWidget. Деды пишут что в те времена wxWidget тормозила на gtk2 и потребляла 10% CPU в редактировании текста.

Скорость чистого перебора — как такое может быть?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт