Как умножить матрицы с помощью SSE?

Question

Марат Нагаев @nagayev

Как умножить матрицы с помощью SSE?

Задача - перемножить 2 массива float'ов с помощью SSE.
В каждом массиве 4 элемента.
Код:

//перемножить a на b, xyz - исходные данные
float xyz[] = {0.1, 0.3 ,0.5};
alignas(16) float a[] = {116.0,500.0,200.0,1.0};
alignas(16) float b[] = {Y(xyz),(X(xyz)-Y(xyz)),Y(xyz)-Z(xyz),1};
__m128* a_simd = reinterpret_cast<__m128*>(a);
__m128* b_simd = reinterpret_cast<__m128*>(b);

size_t size = sizeof(float);
void *ptr = aligned_alloc(32,N * size);
float* c = reinterpret_cast<float*>(ptr);
size_t i = 0;
while (i<N/2){
            _mm_store_ps(c, _mm_mul_ps(*a_simd, *b_simd));
            i++;
            a_simd++;
            b_simd++;
            c += 4;
 }

Если вывести значения c, то они будут некорректными.

Вопрос задан более двух лет назад
286 просмотров

7 комментариев

Подписаться 3 Средний 7 комментариев

Евгений Шатунов @MarkusD Куратор тега C++

Марат Нагаев, П3.1, П3.4, П5.12 регламента.
Ты здесь уже давно, с правилами уже должен быть знаком.

Написано более двух лет назад
mayton2019 @mayton2019

Непонятно. Что с кодом? Нам предлагается его компилировать и искать ошибки? Или уже есть ошибка? Какая?

Написано более двух лет назад
Марат Нагаев @nagayev Автор вопроса

mayton2019, Значения получаются, но они некорректные.

Написано более двух лет назад
mayton2019 @mayton2019

Марат Нагаев,

Я еще не смотрел твой код но сразу замечание по постановке вопроса.

Как умножить матрицы с помощью SSE?
Задача - перемножить 2 массива float'ов с помощью SSE.

Формулы перемножения массивов и матриц представленных массивами - это разные формулы.
Давай определимся ЧТО ты на самом деле умножал. Это важно.
Покаж свой тест-кейс. Как ты проверял что результат корректный или нет.
Можешь даже показать расчет на бумажке. Это даже лучше.

Написано более двух лет назад
Марат Нагаев @nagayev Автор вопроса

mayton2019, Массив это и есть матрица.
Просто однострочная.

Написано более двух лет назад
mayton2019 @mayton2019

Ну что-ж при таком уровне обобщения мы далеко можем уйти. Всё таки мы в С++ а не MatLab.

Может вы дооформите ваш исходник чтоб его можно было скомпилировать и проверить?

Написано более двух лет назад
Марат Нагаев @nagayev Автор вопроса

mayton2019, Я нашел решение проблемы.
Сегодня попозже напишу правильный код

Написано более двух лет назад

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Windows

+2 ещё

Средний
Как получить позицию икноки на десктопе, если известен его file index?
- 1 подписчик
- 6 часов назад
- 65 просмотров
1

ответ
Браузеры

+1 ещё

Средний
Возможно ли сделать браузер как на старый сотовых телефонах на esp32?
- 1 подписчик
- 24 июл.
- 112 просмотров
2

ответа
C

+1 ещё

Простой
Как собрать проект на СИ в один файл?
- 1 подписчик
- 21 июл.
- 135 просмотров
1

ответ
C++

+2 ещё

Простой
Проблема с подкючением TDLib в CMakeList.txt. Как решить проблему undefined reference to...?
- 1 подписчик
- 19 июл.
- 63 просмотра
0

ответов
C

+2 ещё

Средний
Есть ли смысл в handles вместо сырых указателей для аллокации памяти в embedded устройствах?
- 3 подписчика
- 16 июл.
- 2331 просмотр
0

ответов
C++

+3 ещё

Средний
Как настроить кросскомпиляцию Qt6 + TDLib под Windows на Arch Linux, если при сборке постоянно возникают ошибки?
- 1 подписчик
- 15 июл.
- 180 просмотров
2

ответа
C++

+1 ещё

Простой
В visual studio для c++ пишет ошибки E0070. Как их убрать?
- 1 подписчик
- 14 июл.
- 98 просмотров
0

ответов
C++

Простой
Как ждать в диапазоне атомарных чисел?
- 1 подписчик
- 13 июл.
- 151 просмотр
2

ответа
Android

+1 ещё

Простой
Почему размер .so в Android в разы больше чем аналогичный .dll для Windows?
- 1 подписчик
- 13 июл.
- 178 просмотров
0

ответов
Linux

+3 ещё

Простой
Как можно захватить данные субагентом, с помощью agentx, билиотеки net-snmp?
- 1 подписчик
- 11 июл.
- 72 просмотра
0

ответов
Показать ещё Загружается…

Frontend Tech Lead

Marfatech • Москва

Data аналитик (Виртуальные ассистенты)

ИТ-Холдинг Т1 • Рязань

Администратор ArenaDataDB

ИТ-Холдинг Т1

Марат Нагаев, П3.1, П3.4, П5.12 регламента.
Ты здесь уже давно, с правилами уже должен быть знаком.
Непонятно. Что с кодом? Нам предлагается его компилировать и искать ошибки? Или уже есть ошибка? Какая?
mayton2019, Значения получаются, но они некорректные.
Марат Нагаев,

Я еще не смотрел твой код но сразу замечание по постановке вопроса.

Как умножить матрицы с помощью SSE?
Задача - перемножить 2 массива float'ов с помощью SSE.

Формулы перемножения массивов и матриц представленных массивами - это разные формулы.
Давай определимся ЧТО ты на самом деле умножал. Это важно.
Покаж свой тест-кейс. Как ты проверял что результат корректный или нет.
Можешь даже показать расчет на бумажке. Это даже лучше.
mayton2019, Массив это и есть матрица.
Просто однострочная.
Ну что-ж при таком уровне обобщения мы далеко можем уйти. Всё таки мы в С++ а не MatLab.

Может вы дооформите ваш исходник чтоб его можно было скомпилировать и проверить?
mayton2019, Я нашел решение проблемы.
Сегодня попозже напишу правильный код

Answer 1 · 2022-10-23 21:20:01

Нашел на stackoverflow:
https://stackoverflow.com/questions/26494785/timin...
Вместо стандартного ключевого слова alignas в С до 11 версии и старом С++ можно использовать

__attribute__((aligned(16)))

в GCC, а в MSVC аналогичный decltype.
Решение (перемножение массивов a и b и сохранение результат в c):

float a[n];
float b[n];
alignas(16) float с[n] ; // массив хранения результата
__m128 x,y,result; // тип данных для хранения SSE регистра 
result = _mm_setzero_ps(); // обнуляем регистр
for(int k = 0; k <= (n-4); k += 4) {
            x = _mm_load_ps(&a[k]); // Загружаем 4 float'а
            y = _mm_load_ps(&b[k]);
            result = _mm_mul_ps(x,y); // умножаем
            _mm_store_ps(&c[k],result); // сохраняем результат в c
}
int extra = n%4; // Если размер не кратен 4, то домножаем остаток
if(extra!=0) {
            for(i = (n-extra); i < n; i++) {
                c[i] = a[i] * b[i];
            }
 }

Как умножить матрицы с помощью SSE?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт