Почему inline функция класса C++ медленнее обычной inline функции?

Question

Леший Городской @LeshiyUrban

C++

Почему inline функция класса C++ медленнее обычной inline функции?

Программа должна суммировать два вектора. Даны две реализации.
Первая: на основе мета-программирования и классов:

struct Sum {
  template <class T>
  inline T operator()(const T &a, const T &b) const noexcept {
    return a + b;
  }
};

template <class FuncType>
struct Calc : public FuncType {
  template <class T>
  inline void operator()(std::vector<T> &result, 
                         const std::vector<T> &a,
                         const std::vector<T> &b) const {
    if (a.size() != b.size()) throw std::invalid_argument("vectors must have same size");
    if (result.size() < a.size()) result.resize(a.size());
#pragma omp parallel for
    for (size_t i = 0; i < a.size(); ++i) result[i] = FuncType::operator()(a[i], b[i]);
  }
};
const static Calc<Sum> sum;

Вторая: прямая реализация

template <class T>
inline void direct_sum(std::vector<T> &result, 
                       const std::vector<T> &a,
                       const std::vector<T> &b) {
  if (a.size() != b.size())  throw std::invalid_argument("vectors must have same size");
  if (result.size() < a.size()) result.resize(a.size());
#pragma omp parallel for
  for (size_t i = 0; i < a.size(); ++i) result[i] = a[i] + b[i];
}

Вопрос, почему первый вариант (sum(v1,v2,v3)) медленнее чем второй (direct_sum(v1,v2,v3)) примерно на 10%? Предполагалось, что компилятор раскроет все inline выражения, и проседания по производительности быть должно.

Вопрос задан более трёх лет назад
1077 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++

12 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unreal Engine + ИИ

9 месяцев

Далее
Stepik

Профессия: Разработчик C++ (Junior)

2 месяца

Далее

Решения вопроса 1

6 комментариев

Леший Городской @LeshiyUrban Автор вопроса

Значит есть надежда, что все может быть правильно сделано.
Можете, пожалуйста, указать ваше окружение (ОС, компилятор, опции)?
Измерение времени:

struct TimePrinter {
  timeval t1, t2;
  std::string name;

  TimePrinter(const std::string &name_) : name(name_) {
    gettimeofday(&t1, NULL);
  }

  ~TimePrinter() {
    gettimeofday(&t2, NULL);
    double elapsedTime;
    elapsedTime = (t2.tv_sec - t1.tv_sec) * 1000.0;     // sec to ms
    elapsedTime += (t2.tv_usec - t1.tv_usec) / 1000.0;  // us to ms
    std::cerr << name << " tooks " << elapsedTime << " ms" << std::endl;
  }
};

Использование:

std::vector<double> v1(10000000), v2(10000000), v3;
  {
    TimePrinter printer("sum");
    sum(v3, v1, v2);
  }
  {
    TimePrinter printer("direct sum");
    direct_sum(v3, v1, v2);
  }
  {
    TimePrinter printer("transform sum");
    direct_sum_transform(v3, v1, v2);
  }

Посмотрите на нашу с Армянское Радио переписку: там я указал параметры.
Компилятор: g++ (Ubuntu 4.8.2-19ubuntu1) 4.8.2
Опции: -O1

Написано более трёх лет назад

Леший Городской @LeshiyUrban Автор вопроса

Проблема решена: действительно с -O3 результат одинаковый. Без флага оптимизации, компилятор просто не раскрывает inline функции. Спасибо jcmvbkbc и Армянское Радио

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

> Можете, пожалуйста, указать ваше окружение (ОС, компилятор, опции)?
Fedora 18, gcc-4.7.2, g++ -std=c++0x -fopenmp -O1

> Посмотрите на нашу с Армянское Радио переписку: там я указал параметры.
Посмотрел, да. O1 оттуда и взял.

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

С измерением времени беда, как и ожидалось. Как у вас -- печатает:
sum tooks 46.28 ms
direct sum tooks 20.544 ms

А если блоки просто переставить местами -- печатает:

direct sum tooks 46.168 ms
sum tooks 20.402 ms

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

> Без флага оптимизации, компилятор просто не раскрывает inline функции.
С -O1 -- раскрывает.

Написано более трёх лет назад
Леший Городской @LeshiyUrban Автор вопроса

jcmvbkbc: Да, это из-за изменения размера вектора v3. Уже поправил : тогда результат совпадает.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Леший Городской @LeshiyUrban Автор вопроса

Transform оказался медленнее (OpenMP отключен):
sum tooks 227.061 ms
direct sum tooks 131.993 ms
transform sum tooks 231.368 ms

template <class T>
inline void direct_sum_transform(std::vector<T> &result, const std::vector<T> &a,
                            const std::vector<T> &b) {
  if (a.size() != b.size())
    throw std::invalid_argument("vectors must have same size");
  if (result.size() < a.size()) result.resize(a.size());
  std::transform(std::begin(a), std::end(a), std::begin(b), std::begin(result),
                 std::plus<T>());
}

Написано более трёх лет назад

Армянское Радио @gbg Куратор тега C++

LeshiyUrban: Какой компилятор? А опции? Очень странно, такого результата (под 50%) в тесте Степанова быть не должно.

Написано более трёх лет назад
Леший Городской @LeshiyUrban Автор вопроса

Армянское Радио:
g++ (Ubuntu 4.8.2-19ubuntu1) 4.8.2
Опции: -O1

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега C++

LeshiyUrban: Тут еще за скобками остается вопрос с измерением времени. Да и компилятор такой... пенсионного возраста слегка. А бабахните-ка ему -O3

Написано более трёх лет назад

5 комментариев

Армянское Радио @gbg Куратор тега C++

Ничего, что под отладчиком генерируется СААААвершенно другой код, в котором отсутствуют, например, оптимизации, зато присутствуют отладочные версии вызовов?

Уж если ловить, то с профилировщиком.

И последнее - упрощенчество в программировании недопустимо.

То, что здесь написано - почти эталонный код на C++. Если ваше "пишите проще" эквивалентно "Пишите на C++ как на C с классами", стоит задуматься.

Написано более трёх лет назад
Ilya Bobkov @heksen

Армянское Радио: может вы под debug сборкой смотрите эти вызовы?

Написано более трёх лет назад
Ilya Bobkov @heksen

Армянское Радио: упрощенство допустимо - это я вам говорю. Я в своё время очень сильно намучился с C++.

Написано более трёх лет назад
Армянское Радио @gbg Куратор тега C++

Илья Бобков:
Я так понимаю, вы хотели под отладчиком посмотреть машинный код, который генерирует компилятор? Тогда отчасти мой вопрос снимается.

Написано более трёх лет назад
Ilya Bobkov @heksen

Армянское Радио: да именно

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 109 просмотров
1

ответ
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 1 подписчик
- 07 июл.
- 64 просмотра
1

ответ
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 103 просмотра
1

ответ
C++

Сложный
Концепт проверки совместимости с шаблонным конструктором?
- 1 подписчик
- 25 июн.
- 95 просмотров
1

ответ
C++

Простой
Я единственный у кого cppreference.com через раз падает с ERR_TIMED_OUT?
- 1 подписчик
- 21 июн.
- 176 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 106 просмотров
1

ответ
C++

+3 ещё

Простой
Почему бинарник скомпилированный через CMake весит больше, чем напрямую скомпилированный через clang++?
- 1 подписчик
- 11 июн.
- 324 просмотра
1

ответ
C++

+2 ещё

Простой
Как настроить clangd на видимость всех файлов, чтобы не указывать относительные пути в include?
- 1 подписчик
- 10 июн.
- 103 просмотра
1

ответ
Программирование

+4 ещё

Простой
Выбор между изучением c++ и Golang, что изучать?
- 3 подписчика
- 09 июн.
- 1345 просмотров
10

ответов
C++

+1 ещё

Простой
В Терминал С++ выводятся неизвестные символы?
- 1 подписчик
- 05 июн.
- 185 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2015-03-22 12:44:50

Вопрос, почему первый вариант (sum(v1,v2,v3)) медленнее чем второй (direct_sum(v1,v2,v3)) примерно на 10%?

Потому что вы не показали ни опций компилятора, полной програмы, ни способа измерения времени.
Откомпилировав оба примера с вашими опциями я получил идентичный ассемблерный код для цикла вычислений.

Answer 2 · 2015-03-22 11:25:19

Попробуйте начать с теста без omp parallel - ведь вы его даже не настраиваете перед пуском. Если результаты совпадут - настройте. В первом случае, у компилятора явно нет гарантий локальности оператора суммирования.

Можете кстати std::plus проверить, вдруг с ним сработает.

И да, под это дело есть std::transform. Реализации STL в C++11 по стандарту требуют от операндов transform гарантий, разрешающих параллельное исполнение. Остается открытым вопрос с тем, реализуют ли они параллелизм.

И да, не вижу версии с итераторами. Вот она будет быстрее всех ваших.

Answer 3 · 2015-03-22 11:19:42

А вы дебагер откройте и посмотрите. Мой совет пишите максимально проще. Я вот смотрю и думаю вообще какой смысл в структуру sum запихивать оператор, когда изначально структура должна хранить в себе набор данных.

Почему inline функция класса C++ медленнее обычной inline функции?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт