Почему Clang (с -O3) не векторизует данный цикл?

Question

floppa322 @Lite_stream

Почему Clang (с -O3) не векторизует данный цикл?

В первом примере компилятор успешно векторизовал цикл:

struct Word
{
    int a;
    int b;
    int c;
    int d;
};

size_t N = 1'000'000'000;

Word * words = new Word[N];

for (size_t i = 0; i < N; ++i)
{
        words[i].a = value + 1;
        words[i].b = value + 2;
        words[i].c = value + 3;
        words[i].d = value + 4;
}

Тело цикла:

=> 0x0000000000404c40 <+96>:	movdqu %xmm0,-0x70(%rdi)
   0x0000000000404c45 <+101>:	movdqu %xmm0,-0x60(%rdi)
   0x0000000000404c4a <+106>:	movdqu %xmm0,-0x50(%rdi)
   0x0000000000404c4f <+111>:	movdqu %xmm0,-0x40(%rdi)
   0x0000000000404c54 <+116>:	movdqu %xmm0,-0x30(%rdi)
   0x0000000000404c59 <+121>:	movdqu %xmm0,-0x20(%rdi)
   0x0000000000404c5e <+126>:	movdqu %xmm0,-0x10(%rdi)
   0x0000000000404c63 <+131>:	movdqu %xmm0,(%rdi)
   0x0000000000404c67 <+135>:	add    $0x8,%rsi
   0x0000000000404c6b <+139>:	sub    $0xffffffffffffff80,%rdi
   0x0000000000404c6f <+143>:	cmp    %rsi,%rdx
   0x0000000000404c72 <+146>:	jne    0x404c40 <run()+96>

А вот во втором, где происходит то же самое, но Word разделилась на 2 части и теперь 2 массива - нет:

struct Word
{
    int a;
    int b;
};

struct Half
{
    int c;
    int d;
};

size_t N = 1'000'000'000;

Word * words = new Word[N];
Half * halfs = new Half[N];

for (size_t i = 0; i < N; ++i)
{
        words[i].a = value + 1;
        words[i].b = value + 2;
        halfs[i].c = value + 3;
        halfs[i].d = value + 4;
}

Тело цикла:

=> 0x0000000000404c50 <+96>:	mov    %r9d,(%rsi,%rdx,8)
   0x0000000000404c54 <+100>:	mov    %edi,0x4(%rsi,%rdx,8)
   0x0000000000404c58 <+104>:	mov    %ebx,(%rcx,%rdx,8)
   0x0000000000404c5b <+107>:	mov    %eax,0x4(%rcx,%rdx,8)
   0x0000000000404c5f <+111>:	mov    %r9d,0x8(%rsi,%rdx,8)
   0x0000000000404c64 <+116>:	mov    %edi,0xc(%rsi,%rdx,8)
   0x0000000000404c68 <+120>:	mov    %ebx,0x8(%rcx,%rdx,8)
   0x0000000000404c6c <+124>:	mov    %eax,0xc(%rcx,%rdx,8)
   0x0000000000404c70 <+128>:	add    $0x2,%rdx
   0x0000000000404c74 <+132>:	cmp    %rdx,%r10
   0x0000000000404c77 <+135>:	jne    0x404c50 <run()+96>

Вопрос задан более трёх лет назад
114 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Евгений Шатунов @MarkusD Куратор тега C++

floppa322 , а как он должен это векторизовать если у тебя блоки памяти даже в true sharing не укладываются?
Чтобы операцию можно было векторизовать, у тебя данные довольно строго должны укладываться в 128 бит. Желательно еще и выравнивание на 16 байт сделать. А то на x64 у тебя просто производительность упадет, когда на ARM упадет уже процесс по недопустимой операции на невыравненной памяти.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

Чтобы операцию можно было векторизовать, у тебя данные довольно строго должны укладываться в 128 бит. Желательно еще и выравнивание на 16 байт сделать.

Ну это понятно, просто было немного неясно, почему в 1-м случае он смог это сделать без выравнивания, а во втором нет.
Ниже дали разъяснение

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Разработчик на C++: Профессия + специализация + нейросети

12 месяцев

Далее
Skillbox

Разработчик на C++

7 месяцев

Далее
Яндекс Практикум

Разработчик C++

9 месяцев

Далее

Решения вопроса 1

9 комментариев

floppa322 @Lite_stream Автор вопроса

Спасибо

Написано более трёх лет назад
jcmvbkbc @jcmvbkbc

Во втором случае - два независимых массивка 64х битных элементов которые в памяти
расположены достаточно далеко

но каждый из массивов по-прежнему непрерывен, просто один регистр xmm теперь накрывает не один элемент массива, а два. gcc -O3 второй пример прекрасно векторизует именно таким способом.
Возможно и clang сможет векторизовать, если один цикл по двум массивам разбить на два отдельных цикла, каждый по своему массиву.

Написано более трёх лет назад

mayton2019 @mayton2019

Попробуй так

for (size_t i = 0; i < N; ++i)
{
        words[i].a = value + 1;
        words[i].b = value + 2;
}
for (size_t i = 0; i < N; ++i)
        halfs[i].c = value + 3;
        halfs[i].d = value + 4;
}

Написано более трёх лет назад

floppa322 @Lite_stream Автор вопроса

mayton2019, не векторизовал :(

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса
mayton2019, даже так не хочет

Word * words = new (std::align_val_t(16)) Word[N]; Half * halfs = new (std::align_val_t(16)) Half[N];
Написано более трёх лет назад
mayton2019 @mayton2019

floppa322, а попробуй другой компиллятор. GCC например.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса
mayton2019, ну да, gcc сделал это

0x0000555555559e78 <+88>: movups %xmm1,(%rdx,%rax,1) 0x0000555555559e7c <+92>: movups %xmm0,(%rcx,%rax,1)
Написано более трёх лет назад
mayton2019 @mayton2019

floppa322, красавчик. Бери gcc.

Написано более трёх лет назад
floppa322 @Lite_stream Автор вопроса

mayton2019, хз странно, почему clang не справился, вроде бы очень прозрачный код для оптимизатора

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Почему function wrapper с ссылкой в сигнатуре может принимать pointer to member function?
- 1 подписчик
- вчера
- 47 просмотров
0

ответов
C++

Простой
Как лучше реализовать асинхронную задержку?
- 2 подписчика
- 04 дек.
- 206 просмотров
2

ответа
C++

+2 ещё

Простой
Как скомпилировать рабочую dll библиотеку?
- 3 подписчика
- 26 нояб.
- 321 просмотр
1

ответ
C++

+1 ещё

Простой
Как узнать, хранятся числа в компьютере в прямом, дополнительном или обратном коде?
- 1 подписчик
- 23 нояб.
- 461 просмотр
6

ответов
C++

+1 ещё

Средний
Имя массива это адрес первого элемента или указатель на его первый элемент в Си?
- 2 подписчика
- 12 нояб.
- 476 просмотров
5

ответов
C++

+1 ещё

Простой
Почему Project Dependencies не работает?
- 1 подписчик
- 10 нояб.
- 97 просмотров
1

ответ
C++

Простой
Влияет ли, передаёшь ты в функцию аргументы по ссылке или по значению, на производительность и память?
- 2 подписчика
- 07 нояб.
- 359 просмотров
2

ответа
C++

Простой
А нужно ли заменять dynamic_cast?
- 1 подписчик
- 07 нояб.
- 115 просмотров
1

ответ
C++

Простой
Как понять что переполняет память в C++?
- 1 подписчик
- 01 нояб.
- 278 просмотров
1

ответ
Assembler

+2 ещё

Простой
Как заставить GCC (i686) генерировать реальный 16-битный код без использования EAX, ECX и т. д.?
- 1 подписчик
- 31 окт.
- 119 просмотров
2

ответа
Показать ещё Загружается…

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Senior Frontend / Product Engineer (Tauri + Vue) — Solo Role

Poker Training

от 250 000 до 300 000 ₽

Senior DWH Analyst

Анвио Парк

от 200 000 до 300 000 ₽

floppa322 , а как он должен это векторизовать если у тебя блоки памяти даже в true sharing не укладываются?
Чтобы операцию можно было векторизовать, у тебя данные довольно строго должны укладываться в 128 бит. Желательно еще и выравнивание на 16 байт сделать. А то на x64 у тебя просто производительность упадет, когда на ARM упадет уже процесс по недопустимой операции на невыравненной памяти.
Чтобы операцию можно было векторизовать, у тебя данные довольно строго должны укладываться в 128 бит. Желательно еще и выравнивание на 16 байт сделать.

Ну это понятно, просто было немного неясно, почему в 1-м случае он смог это сделать без выравнивания, а во втором нет.
Ниже дали разъяснение

Answer 1 · 2022-11-07 00:01:53

В первом варианте был массив четверок int или массив 128 битных элементов.
Во втором случае - два независимых массивка 64х битных элементов которые в памяти
расположены достаточно далеко и для них скорее всего не нашлось такой векторной
команды которая-бы адресовалась к паре 64 + 64.

Почему Clang (с -O3) не векторизует данный цикл?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт