Как реализовать поэлементное перемножение массивов средствами OpenMP, CUDA и GLSL?

Question

Robotex @Robotex

Как реализовать поэлементное перемножение массивов средствами OpenMP, CUDA и GLSL?

Вот уже несколько дней бьюсь над решением этой проблемы, но мои решения получаются медленнее чем последовательное однопоточное решение:

for(int i=0;i<LAYERS;i++)
  {
    for(int j=0;j<INPUTS*NEURONS;j++)
    {
      temp[j] = inputs[j%INPUTS] * weights[i][j];
    }
    
    for(int j=0;j<NEURONS;j++)
    {
      inputs[j] = 0;
      
      for(int l=0;l<INPUTS;l++)
      {
        inputs[j] += temp[j*INPUTS + l];
      }
      
      inputs[j] = sigmoid(inputs[j]);
    }
  }

Т.е. если вкратце, то имеем массив в N элементов, массив в N*M, и массив (или матрица, здесь weight) в N*M*K элементов.

Поэлементно перемножаем первый массив на группу из K элементов третьего (когда в первом кончаются элементы, переходим на первый и вновь идем по его элементам) и результат во второй. Далее суммируем во втором массиве группы по M элементов и пишем суммы в первый массив (предварительно применив некоторую функцию, но не суть важно). Далее повторяем все с новой группой элементов третьего массива.

Так вот, как я уже сказал, мои решения намного медленнее, чем приведенный выше код (openMP медленнее на чуть-чуть :) ). Как же это сделать правиль?

Вопрос задан более трёх лет назад
5377 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 8

Комментировать

16 комментариев

svetlov @svetlov

GLSL, CUDA или OpenCL? GPU одно, а технологии — разные. Хоть и похожие.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

OpenCL не нужно. У меня цель опробовать три технологии и выбрать ту, что будем использовать. Список тож не я составлял.

Написано более трёх лет назад
svetlov @svetlov

Тогда под GLSL что имеется в виду? Это же всего лишь шейдерный язык для OpenGL.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Да, шейдерный язык, но под GPGPU используется хорошо (и работает там, где недоступны CUDA и OpenMP).

И мне вот на этом шейдерном языке нужно максимально быстро и эффективно реализовать поэлементное умножение массивов.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Например, видеокарты Intel не поддерживают ни CUDA, ни openCL, а если проц одноядерный, то и OpenMP, только GLSL и спасает.

Написано более трёх лет назад
svetlov @svetlov

Я бы не рекомендовал. Понимаете, технически это сделать можно. Будет выглядеть как хак на хаке — придется строить геометрию и проч только для того, чтобы запустить шейдер. А потом еще и вытаскивать полученный результат неочевидным образом. Очень неудачное решение.
Если у вас есть CUDA — берите ее. Аналогичные технологии для ATI-AMD, OpenCL, DirectCompute — что угодно. Но не стоит пытаться запускать GPU в графическом режиме для решения вычислительных задач.
Кстати, на старых NVidia, на которых CUDA не идет — не очень много получится с шейдеров выжать (сильно эти карточки специфично под графику заточены). А код нужно будет писать заново, там несовместимостей вагон с тележкой.
И прироста скорости по сравнению с теми же CUDA/OpenCL не будет — скорее наоборот. ALU ведь одни и те же, а выкрутасы с графикой дадут о себе знать.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

А кто сказал, что это под старые карточки Нвидиа? Это под современные карточки Intel. Спасибо, что это объяснили, но не я это придумал :(

Написано более трёх лет назад
svetlov @svetlov

На старых интелах ничего не спасет. Они держат слишком древний GLSL. И имеют проблемы с render target. Рисовать ведь нужно не на экран, а в буфер — чтобы его потом читать. А вот буфера как раз и нет — слишком тупое железо.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

А современные Intel?

Написано более трёх лет назад
svetlov @svetlov

А на новых, насколько помню, OpenCL хромает — но идет. Вопрос небольшого времени, как мне кажется. Летом-осенью станет еще лучше.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Ну вот, а нужно это именно сейчас. Мы пытались запустить OpenCL — не вышло.

Написано более трёх лет назад
svetlov @svetlov

software.intel.com/en-us/articles/intel-opencl-sdk/

Написано более трёх лет назад
svetlov @svetlov

Сам не пробовал — только OpenCL на NVidia, не больше

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Это только под Windows — не подходит.

Написано более трёх лет назад
svetlov @svetlov

Дело, конечно, ваше — но я бы не рекомендовал. Тем более если, как вы пишите, с OpenGL совсем не знакомы. Долго, мучительно — и результат не радует.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Боже, да мне всего лишь массивы нужно перемножить.

Написано более трёх лет назад

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 104 просмотра
1

ответ
Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 88 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 160 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 312 просмотров
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 79 просмотров
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 292 просмотра
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 413 просмотров
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 251 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 203 просмотра
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1306 просмотров
9

ответов
Показать ещё Загружается…

Answer 1 · 2011-03-27 02:34:44

Кажется, во втором варианте второй цикл не параллелится. Замените input[j] на локальную переменную, чтобы она в регистр упала. Еще может потребоваться промежуточный массив для складывания этих input[j] — чтобы потом одним махом переключить на него после выхода за цикл.

Answer 2 · 2011-03-26 23:57:08

Вот для CUDA пробую использовать cublas, перемножение матриц нашел, а вот как перемножить два массива не пойму.

Answer 3 · 2011-03-27 01:28:48

В чем принципиальная разница между этим: pastebin.com/8dpNKBwt (работает быстрее однопотокового аналога) и этим pastebin.com/fbe4gZSn (работает медленнее)?

Answer 4 · 2011-03-27 04:46:42

Так, с OpenMP решил вот так: pastebin.com/sJ4fXiAb Теперь вроде заметно ускорение.
Сейчас думаю над CUDA. пока тоже все получается вроде.

А вот с GLSL беда. Я вообще не знаком с этой технологией, может кто помочь?

Answer 5 · 2011-03-27 06:15:15

Ну смотрите.
Там нет массивов.
Создаете окошко — это обязательно.
Инииализируете конвейер.
Создаете vertex buffer object с координатами вершин. Да, я знаю что вершин у вас нет — но иначе шейдер не запустить, он будет работать по разу на вершину. Вершины могут быть фейковые.
Создаете текстуры. Современные видеокарты поддерживают текстуры из float — проблем быть не должно. Но следует убедиться для той видюхи, на которой все запускается — иначе нужно использовать другой способ расчета.
Устанавливаем все это добро как render state. Запускаем созданный и скомпилированный шейдер.
Он берет значения из текстур и рисует нам картинку. Вернее, шейдеров нужно два: вершинный и пиксельный. Второй должен записать результат. Есть еще выкрутасы с записью промежуточных результатов из шейдера — но тут нужно смотреть, что умеет конкретная видюха.
Берем результат. Откуда — вопрос. Если поддерживаются pixel buffer object и render target — то из PBO. Иначе из буфера экрана (надеюсь, до этого дело не дойдет, видюха будет более или менее сносной).
Может, я еще что-то забыл.

Перечисленная схема — лишь краткое изложение. На самом деле кода получается — мама не горюй. На «простое перемножение массивов» это ни разу не похоже.

Answer 6 · 2011-03-27 06:19:59

CUDA: pastebin.com/TkrhuEWA
Что-то не так. Если L равно 1, то считает верно, если 2 и выше, то какие-то запредельные числа выходят.


for(int j=0;j<L;j++)
        {
          mulKernel<<<blocksMul, threadsMul>>>(devTemp, devInputs, devWeights, j*N*I, I);
          
          sumKernel<<<blocksSum, threadsSum>>>(devInputs, devTemp, N);
        }

Answer 7 · 2011-03-27 06:39:09

svetlov @svetlov

Что-то мне кажется, что без __syncthreads() дела не будет.

Ответ написан более трёх лет назад

1 комментарий

Answer 8 · 2011-03-27 09:49:20

Здесь: pastebin.com/ggETxnX8 реализовано умножение двух массивов.

У меня несколько вопросов:
1. Количество элементов тут должно быть кратно 4. Как исправить, чтобы работать с любым количеством.
2. Откуда кернел знает с каким индексом он работает?
3. Как использовать два кернела и запускать один после другого?

Как реализовать поэлементное перемножение массивов средствами OpenMP, CUDA и GLSL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт