Как правильно ускорить программу на GPU с использованием C++ AMP

Question

Perzh @Perzh

GPGPU

Как правильно ускорить программу на GPU с использованием C++ AMP

Здравствуйте.
Пытаюсь реализовать EMMSP(extrapolation model most similar pattern) на GPU с использованием C++ AMP.
Суть алгоритма - перебор различных подпоследовательностей фиксированной длины из временного ряда. Простой перебор, просто распараллеливается, потоки работают независимо друг от друга. Данные (массив float от 18к до 1млн) загружены в общую память. Т.к. каждый поток работает со своим маленьким кусочком массива, я хотел загружать данные из глобальной памяти в более быструю блочную память, которая доступна не всем процессорам, а только тем, что находятся на одном блоке. Однако, на времени работы программы это никак не отразилось, при том, что согласно литературе блочная память работает в сотни раз быстрее глобальной и используется неоднократно при обработке данных.
У меня два объяснения этой ситуации: 1. я не правильно пользуюсь блочной памятью 2. каждый поток вычисляет регрессию, корреляцию между двумя кусками массива, при этом, очевидно, используются циклы, а значит и условные операторы, которые плохо влияют на производительность при работе с GPU.
Вопрос: подскажите плз в чем может быть причина: 1, 2 или и то и другое, или что нибудь третье?
P.S.: если есть знающие C++ AMP отпишите плз, я прикреплю кусочек кода, максимально упрощенный, но демонстрирующий суть и используемые мной инструменты.

Вопрос задан более трёх лет назад
2709 просмотров

5 комментариев

Подписаться 2 Оценить 5 комментариев

Сергей Протько @Fesor

Используете ли вы транзакции для перемещения данных из глобальной в блочную память (ну мол объединение данных в жирные блоки)?

Написано более трёх лет назад
Perzh @Perzh Автор вопроса

@Fesor, нет. Я просто выделяю массив данных в блочной памяти, затем в цикле копирую данные из глобальной в блочную. Даже если это не оптимальный вариант, он все равно должен быть быстрее, т.к. обращение к глобальной памяти происходит только 1 раз (условно говоря), тогда как в алгоритме эти данные используются много раз

Написано более трёх лет назад
Сергей Протько @Fesor

@Perzh, по сути время доступа к блочной памяти должно быть сравнимо с временем доступа в регистры, глобальная же памяти очень медленна. А теперь представьте что вы можете ускорить копирование данных для блока в десять раз, и представьте что копирование данных занимает половину времени работы блока.

В любом случае рекомендую попробовать, как одно из основных средств оптимизации.

Написано более трёх лет назад
Сергей Протько @Fesor

blogs.msdn.com/b/nativeconcurrency/archive/2012/07...

Написано более трёх лет назад
Perzh @Perzh Автор вопроса

@Fesor, обязательно попробую, спасибо за совет. А что вы можете сказать по поводу циклов в ядре? Не получается ли так, что скорость упирается в множество циклов?

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Виртуализация

+1 ещё

Простой
Проброс GPU на большое количество виртуальных машин?
- 1 подписчик
- более года назад
- 272 просмотра
3

ответа
C++

+1 ещё

Сложный
Почему при меньшем размере блока потоков в группе, скорость такая же?
- 2 подписчика
- более года назад
- 153 просмотра
1

ответ
GPGPU

+1 ещё

Средний
Что конкретно такое Streaming Multiprocessor?
- 1 подписчик
- более года назад
- 231 просмотр
1

ответ
C++

+2 ещё

Простой
Какая память быстрее локальная или разделямая cuda?
- 1 подписчик
- более года назад
- 122 просмотра
0

ответов
C#

+3 ещё

Сложный
Почему паралельная сортировка слиянием выполняется на cpu быстрее чем на gpu в 100 раз?
- 4 подписчика
- более двух лет назад
- 613 просмотров
1

ответ
C#

+2 ещё

Сложный
Как запускаются потоки в группах на gpu, какие есть гарантии, может ли поток из другой группы запустится раньше времени?
- 3 подписчика
- более двух лет назад
- 635 просмотров
0

ответов
C#

+2 ещё

Сложный
Откуда возникает ошибка при gpu вычислений при увеличении числа данных, в ILGPU Cuda ускорителе?
- 1 подписчик
- более двух лет назад
- 126 просмотров
0

ответов
C#

+3 ещё

Сложный
Gpu вычисления, groupId theradId gridId что означают, как пользоваться?
- 2 подписчика
- более двух лет назад
- 114 просмотров
0

ответов
C++

+2 ещё

Средний
Как перебирать массив из 16 элементов 16 раз в c++ с подключением видеокарты?
- 2 подписчика
- более двух лет назад
- 306 просмотров
1

ответ
Python

+2 ещё

Средний
Как перебирать свой массив с помощю numba на cuda в питоне?
- 1 подписчик
- более двух лет назад
- 212 просмотров
0

ответов
Показать ещё Загружается…

Используете ли вы транзакции для перемещения данных из глобальной в блочную память (ну мол объединение данных в жирные блоки)?
@Fesor, нет. Я просто выделяю массив данных в блочной памяти, затем в цикле копирую данные из глобальной в блочную. Даже если это не оптимальный вариант, он все равно должен быть быстрее, т.к. обращение к глобальной памяти происходит только 1 раз (условно говоря), тогда как в алгоритме эти данные используются много раз
@Perzh, по сути время доступа к блочной памяти должно быть сравнимо с временем доступа в регистры, глобальная же памяти очень медленна. А теперь представьте что вы можете ускорить копирование данных для блока в десять раз, и представьте что копирование данных занимает половину времени работы блока.

В любом случае рекомендую попробовать, как одно из основных средств оптимизации.
@Fesor, обязательно попробую, спасибо за совет. А что вы можете сказать по поводу циклов в ядре? Не получается ли так, что скорость упирается в множество циклов?

Как правильно ускорить программу на GPU с использованием C++ AMP

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт