Откуда берется overhead?

Question

Павел @youkerni

Unity3D developer

C++

Откуда берется overhead?

Вчера ради эксперимента решил провести ряд тестов.
У меня есть код на шарпах:

СS code

class Program
    {
        static int c;
        static void Swap(ref int i, ref int j)
        {
            c = i;
            i = j;
            j = c;
        }

        static void Sort(int[] arr)
        {
            int temp = 0;
            for (int i = 0; i < arr.Length - 1; i++)
            {
                for (int j = 0; j < arr.Length - i - 1; j++)
                {
                    if (arr[j] > arr[j + 1])
                    {
                        // меняем элементы местами
                        Swap(ref arr[j], ref arr[j + 1]);
                        //temp = arr[j];
                        //arr[j] = arr[j + 1];
                        //arr[j + 1] = temp;
                    }
                }
            }
        }

        public static void Main(string[] args)
        {
            int[] arr = new int[10000];
            var rand = new Random();
            for (int i = 0; i < arr.Length; i++)
                arr[i] = rand.Next();

            var sw = new Stopwatch();
            sw.Start();
            Sort(arr);
            sw.Stop();
            Console.WriteLine(sw.ElapsedMilliseconds);
            Console.ReadKey();
        }
    }

И аналогичный код на плюсах

CPP code

#include <iostream>
#include <time.h>
#include <chrono>
#include <ctime>

using namespace std;

int temp;
void Swap(int& a, int &b)
{
        с = a;
        a = b;
        b = c;
}

int main()
{
	srand(time(0));
	int *arr; // указатель для выделения памяти под массив
	int size = 10000; // размер массива

	arr = new int[size]; 

	for (int i = 0; i < size; i++) 
		arr[i] = rand();

	auto start = chrono::system_clock::now();
	// Сортировка массива пузырьком
	for (int i = 0; i < size - 1; i++) 
	{
		for (int j = 0; j < size - i - 1; j++) 
		{
			if (arr[j] > arr[j + 1]) 
			{
                                //swap(arr[j], arr[j+1]);
				Swap(arr[j], arr[j + 1]);

				/*temp = arr[j];
				arr[j] = arr[j + 1];
				arr[j + 1] = temp;*/
			}
		}
	}
	auto end = chrono::system_clock::now();
	chrono::duration<double> elapsed_seconds = end - start; 
	time_t end_time = chrono::system_clock::to_time_t(end);

	cout << "finished computation at " << elapsed_seconds.count() << "s\n";
	system("pause");
}

Проведя замеры разных ситуаций получил следующие результаты:
1) С# с вызовом swap (c объявлена в swap) - ~800мс
2) C# без метода swap (замена в теле for) - ~495мс
3) С# с вызовом swap (c - статическая переменная (без аллокаций на стеке)) - ~590мс
4) С# с вызовом swap (без использования доп. переменной) - ~622мс

5) С++ с вызовом swap (стандартный из std) - ~4000мс
6) С++ с вызовом swap (самописный, аргументы передаются по ссылке, c объявлена в swap) - ~1730мс
7) C++ без метода swap (замена в теле for) - ~470мс
8) С++ с вызовом swap (c - статическая переменная (без аллокаций на стеке)) - ~1690мс
9) С++ с вызовом swap (без использования доп. переменной) - ~1780мс

И самый интересный случай произошел когда я случайно инициализировал переменную объявленную в swap нулем, вместо значения одной из переменных:
10) C++ без инициализации временной переменной 230мс
11) C# без инициализации временной переменной 250мс

Код второго случая в общем виде:

//в c# соответственно ref
void Swap(int& a, int &b)
{
        //тут забыл инициализировать
	int temp = 0;
	a = b;
	b = temp;
}

Собственно, вопросы:
1) Почему вызов метода(функции) дает такой большой оверхед по сравнению с вычислениями в теле for?
2) Правильно ли я понимаю, что 10 и 11 случай компилятор хорошо оптимизирует до чего-то подобного

spoiler

void Swap(int& a, int &b)
{
	a = b;
	b = 0;
}

из-за чего мы избегаем аллокаций на стеке и лишнего побитового копирования?
3) Что нужно было натворить в std::swap что бы она выполнялась в разы дольше маленького самописного Swap?

Вопрос задан более трёх лет назад
276 просмотров

12 комментариев

Подписаться 1 Простой 12 комментариев

sim3x @sim3x

-O3 ?

Написано более трёх лет назад
Павел @youkerni Автор вопроса

sim3x, не понял что вы имеете ввиду.

Написано более трёх лет назад
sim3x @sim3x

Павел,
Оптимизации при компиляции?
Как проводите замеры?

Написано более трёх лет назад
Павел @youkerni Автор вопроса

sim3x, беру собственно код, указанный тут, запускаю его при условиях описанных тут.
Результат замеряю при помощи Stopwatch в c# и clock() в плюсах соответственно, как в коде выше.
Оптимизаций при компиляции никаких не использую (везде debug сборки). Создал новый проект и в нем просто написал код выше.

skrinshoter.ru/s/270419/9hxWkquJ?a

Написано более трёх лет назад
sim3x @sim3x

Павел, Картинки лучше загрузить на хабрасторадж

Без оптимизации стоит мерять только скорость относительно себя и то с долей иронии

Найдите ман по тому как правильно мерять время исполнения в обоих ЯП

Написано более трёх лет назад
Павел @youkerni Автор вопроса

sim3x, спасибо, Вы правы.

Написано более трёх лет назад
Никита @NS33

Павел, Просьба сообщить как изменятся результаты замеров, интересно кто победит.

Написано более трёх лет назад
Roman @myjcom Куратор тега C++

Никита, ++

upd:
Павел, непонятно что вы там намутили.
5) С++ с вызовом swap (стандартный из std) - ~4000мс

Сферический конь в вакууме говорит, что С++ может так
O0 0.156609s
O3 0.0141952s

P.S.
std::swap

Написано более трёх лет назад
Павел @youkerni Автор вопроса

Никита, у меня в release сборках победил C# с локальной переменной в теле метода Swap c результатом 120 мс. Причины этого хорошо описаны в одном из ответов. Остальные же тесты давали результат от 140 до 280 мс. Видимо тестировать на debug версии было не самой умной затеей :)
Но нужно учесть, что конкретно в этом примере нет overhead на garbageCollector.

Написано более трёх лет назад
Павел @youkerni Автор вопроса

Roman, код был идентичен тому что вы видите. Просто вот такие вот погрешности были на debug версиях :)

Написано более трёх лет назад
Roman @myjcom Куратор тега C++

Павел,
у меня в release сборках победил C#

Для чистоты эксперимента https://habr.com/ru/post/266163/

Написано более трёх лет назад
Павел @youkerni Автор вопроса

Roman, я сам удивлен. Может я делаю что-то не так, но результат на моем старом ноуте именно такой.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 2

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 106 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 62 просмотра
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 103 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 176 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 106 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 318 просмотров
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 103 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1339 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 185 просмотров
3

ответа
Показать ещё Загружается…

Павел,
Оптимизации при компиляции?
Как проводите замеры?
sim3x, беру собственно код, указанный тут, запускаю его при условиях описанных тут.
Результат замеряю при помощи Stopwatch в c# и clock() в плюсах соответственно, как в коде выше.
Оптимизаций при компиляции никаких не использую (везде debug сборки). Создал новый проект и в нем просто написал код выше.

skrinshoter.ru/s/270419/9hxWkquJ?a
Павел, Картинки лучше загрузить на хабрасторадж

Без оптимизации стоит мерять только скорость относительно себя и то с долей иронии

Найдите ман по тому как правильно мерять время исполнения в обоих ЯП
Павел, Просьба сообщить как изменятся результаты замеров, интересно кто победит.
Никита, ++

upd:
Павел, непонятно что вы там намутили.
5) С++ с вызовом swap (стандартный из std) - ~4000мс

Сферический конь в вакууме говорит, что С++ может так
O0 0.156609s
O3 0.0141952s

P.S.
std::swap
Никита, у меня в release сборках победил C# с локальной переменной в теле метода Swap c результатом 120 мс. Причины этого хорошо описаны в одном из ответов. Остальные же тесты давали результат от 140 до 280 мс. Видимо тестировать на debug версии было не самой умной затеей :)
Но нужно учесть, что конкретно в этом примере нет overhead на garbageCollector.
Roman, код был идентичен тому что вы видите. Просто вот такие вот погрешности были на debug версиях :)
Павел,
у меня в release сборках победил C#

Для чистоты эксперимента https://habr.com/ru/post/266163/
Roman, я сам удивлен. Может я делаю что-то не так, но результат на моем старом ноуте именно такой.

Answer 1 · 2019-04-27 14:33:53

Стандарт C++ предписывает статическое расположение для глобальных и статических переменных. Это означает целую массу побочных эффектов для генерации использующего переменную кода.

Для примера можно взять твою функцию swap и посмотреть на то, как компилятор будет генерировать код даже с учетом оптимизации.

Смотрим первый пример

void swap( int& left, int& right )
{
    static int t = left;
    left = right;
    right = t;
}

И вот результат обработки clang.

swap(int&, int&):                            # @swap(int&, int&)
        pushq   %r14
        pushq   %rbx
        pushq   %rax
        movq    %rsi, %rbx
        movq    %rdi, %r14
        movb    guard variable for swap(int&, int&)::t(%rip), %al
        testb   %al, %al
        je      .LBB0_1
.LBB0_3:
        movl    (%rbx), %eax
        movl    %eax, (%r14)
        movl    swap(int&, int&)::t(%rip), %eax
        movl    %eax, (%rbx)
        addq    $8, %rsp
        popq    %rbx
        popq    %r14
        retq
.LBB0_1:
        movl    $guard variable for swap(int&, int&)::t, %edi
        callq   __cxa_guard_acquire
        testl   %eax, %eax
        je      .LBB0_3
        movl    (%r14), %eax
        movl    %eax, swap(int&, int&)::t(%rip)
        movl    $guard variable for swap(int&, int&)::t, %edi
        callq   __cxa_guard_release
        jmp     .LBB0_3

Смотрим второй пример

void swap( int& left, int& right )
{
    int t = left;
    left = right;
    right = t;
}

Вот результат выдачи от clang.

swap(int&, int&):                            # @swap(int&, int&)
        movl    (%rdi), %eax
        movl    (%rsi), %ecx
        movl    %ecx, (%rdi)
        movl    %eax, (%rsi)
        retq

Не обязательно быть специалистом в ассемблере чтобы увидеть прямую разницу в сгенерированном коде.
На самом деле, если t объявить именно как глобальную переменную, то сгенерированный код станет немного легче, но он все равно будет объемнее и тяжелее кода с локальной переменной. Уже просто потому что глобальная переменная находится в глобальной памяти, а запросы из процессора в ОЗУ - сравнительно долгая операция.

Сравнение скорости доступа к памяти

Answer 2 · 2019-04-27 14:38:51

Во втором случае, я не думаю, что это правильно сортирует, т.к. в переменную b всегда ноль записывается. Переменную tmp нужно переменной a инициализировать.

Время нужна считать с учётом включенных оптимизаций. Например в релизном режиме, с флагом -Ofast или -O3 результаты будут сильно быстрее (в том числе и для std::swap). С похожими параметрами обычно компилируются программы, которые поставляются конечному пользователю.

В режиме отладки, который обычно активирован по умолчанию, компилятор не применяет множество оптимизаций и генерирует отладочную информацию, чтобы программисту легче было разрабатывать. Узнать, какой код был сгенерирован в зависимости от флагов компиляторы, можно тут: https://godbolt.org/ .

Чтобы понять, какая часть программы потребляет больше всего ресурсов, пользуйтесь профайлерами. Например valgrind с соответствующими флагами.

Откуда берется overhead?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт