Почему падает производительность при использовании SIMD (gcc, авто-векторизация)?

Question

Андрюха @syrov

пишу программы до 99 строк

Почему падает производительность при использовании SIMD (gcc, авто-векторизация)?

Пишу (для забавы) raytracer, все своими руками, включая векторные и матричные операции. Код линейной алгебры написал циклами. Вот пример выдержка для функции сложения векторов:

#define assume_aligned(a) (__builtin_assume_aligned(a, align_size)); assert_align(a)
#define align(a) decltype(a) a##_ = (decltype(a)) assume_aligned(a)

template
void add(const T* __restrict v, const T* __restrict u, T* __restrict o) {
align(v); align(u); align(o);
for (size_t i = 0; i < size; i++)
o_[i] = v_[i] + u_[i];
}

В общем все функции в таком ключе (надежда на -О3). Еще использовал ОpenMP (который сразу увеличил скорость в 4 раза, по числу ядер). А вот с SIMD проблема. Я не хотел использовать SIMD инструкции, (пусть компилятор этим занимается). Так вот если я использую векторы из 4 float (вместо трех), и в моем понимании должно работать быстрее, работает на самом деле в 3 раза медленнее. (аsm я не смотрел). Отмечу, что все данные alignas(16) и компилятор указывает, что "loop vectorized". Читал, что многие также сталкивались с неожиданными результатами авто векторизации.

Собственно, вопрос: у кого есть положительный опыт авто векторизации (gcc), без или в сочетании с OpenMP (#pragma omp simd)?

Заранее благодарен.

Вопрос задан более трёх лет назад
338 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Учебный центр IBS

JVA-I-007 Многопоточность в Java

1 неделя

Далее
Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
ProductStar

Java: быстрый старт

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Assembler

+2 ещё

Простой
Как заставить GCC (i686) генерировать реальный 16-битный код без использования EAX, ECX и т. д.?
- 1 подписчик
- 31 окт.
- 123 просмотра
2

ответа
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 623 просмотра
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 252 просмотра
2

ответа
Linux

+2 ещё

Средний
Почему pkg-config не работает с gcc и clang?
- 1 подписчик
- 27 июл.
- 133 просмотра
1

ответ
Java

+1 ещё

Простой
Почему возникает deadlock?
- 1 подписчик
- 17 июл.
- 315 просмотров
1

ответ
C#

+3 ещё

Простой
Почему код без условных переходов медленнее чем с ними? Ассемблер. Если должно быть наоборот?
- 1 подписчик
- 18 мая
- 258 просмотров
0

ответов
C

+1 ещё

Простой
Как из длины массива и максимального количества потоков узнать индексы, которые будет обрабатывать поток?
- 2 подписчика
- 12 апр.
- 370 просмотров
1

ответ
Windows

+3 ещё

Простой
Как корректно использовать функцию system при компиляции из GCC?
- 1 подписчик
- 10 апр.
- 223 просмотра
1

ответ
Linux

+4 ещё

Средний
Как установить инструменты разработчика на SteamDeck?
- 1 подписчик
- 28 мар.
- 235 просмотров
1

ответ
C++

+4 ещё

Простой
В чём преимущество Clang перед GCC? Что использовать для кросс-компиляции?
- 1 подписчик
- 24 мар.
- 392 просмотра
1

ответ
Показать ещё Загружается…

Программист Delphi/C++

Базис-Центр • Коломна

от 70 000 до 500 000 ₽

(KZ) Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

Jivestor • Алматы

До 2 600 €

(KZ) Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

Jivestor • Актобе

До 2 600 €

Answer 1 · 2015-08-24 09:48:52

Армянское Радио @gbg

Любые ответы на любые вопросы

(аsm я не смотрел). - вот главная проблема. Посмотрите.

Положительный опыт есть. На близкой задаче.

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2015-08-25 21:43:26

В общем тема не простая, я посмотрел asm, и выяснил (надо отметить слабое знание asm), что в некоторых случаях компилятор опримизирует так, что получается лучше, чем если писать самому используя simd инструцкии, так как он оптимизирует, не конкрентую процедуры а всю программу. Хотя вручную написанный на simd инструкциях код ведет себя более предсказуемо, разница +/- 30%. В общем, наверное для меня есть смысл просто попомогать компилятору с помошью alignas, -О3, -march=native, __restrict__ ну и писать попроще.

Почему падает производительность при использовании SIMD (gcc, авто-векторизация)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт