Как можно оптимизировать этот кусочек CUDA-кода?

Question

Robotex @Robotex

Как можно оптимизировать этот кусочек CUDA-кода?

Взгляните на этот кусочек кода:

void OpenNNL::calculateNeuronsOutputsAndDerivatives(double * inputs, double * deviceOutputs, double * deviceDerivatives)
    {
        int inputsCount = _inputsCount;
    
        double * deviceTemp;
        double * deviceInputs;
    
        cudaCall(cudaMalloc ( (void**)&deviceInputs, inputsCount*sizeof(double) ));
    
        cudaCall(cudaMemcpy ( deviceInputs, inputs, inputsCount*sizeof(double), cudaMemcpyDeviceToDevice ));
    
        for(int i=0;i<_layersCount;i++)
        {
            cudaCall(cudaMalloc((void**)&deviceTemp, _neuronsPerLayerCount[i]*inputsCount*sizeof(double)));
    
            dim3 threadsMul = dim3(BLOCK_SIZE, 1);
            int blocksCount = floor((double) _neuronsPerLayerCount[i]*inputsCount / threadsMul.x) + 1;
            dim3 blocksMul = dim3(blocksCount, 1);
    
            weighting<<<blocksMul, threadsMul>>>(deviceTemp, deviceInputs, _neuronsInputsWeights, _inputsInPreviousLayers[i], inputsCount, _neuronsPerLayerCount[i]);
    
            cudaCall(cudaFree(deviceInputs));
    
            cudaCall(cudaMalloc((void**)&deviceInputs, _neuronsPerLayerCount[i]*sizeof(double)));
    
            dim3 threadsSum = dim3(BLOCK_SIZE, 1);
            blocksCount = floor((double) _neuronsPerLayerCount[i] / threadsSum.x) + 1;
            dim3 blocksSum = dim3(blocksCount, 1);
    
            calculateOutputsAndDerivatives<<<blocksSum, threadsSum>>>(deviceOutputs, deviceDerivatives, deviceInputs, deviceTemp, _neuronsBiases, inputsCount, _neuronsPerLayerCount[i], _neuronsInPreviousLayers[i]);
    
            inputsCount = _neuronsPerLayerCount[i];
    
            cudaCall(cudaFree(deviceTemp));
        }
    
        cudaCall(cudaFree(deviceInputs));
    }

Эта функция запускается очень часто. И работает она очень медленно. Вы можете увидеть cudaMemcpy в начале функции. Как можно было бы переписать ее так, чтобы избежать копирования? Массив **inputs** уже находится в глобальной памяти.

Вопрос задан более трёх лет назад
4209 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

6 комментариев

Robotex @Robotex Автор вопроса

Что значит дожидаться окончания работы ядер?

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Избавился от cudaFree cudaMalloc — скорость сравнялась с процессорной.
Замена на одинарную точность дала уменьшение времени выполнения всего лишь на 12 секунд (с двойной — 1m28.486s, с одинарной — 1m16.102s, CPU — 1m38.294s)
Как заставить ее дожидаться окончания работы ядер?

Написано более трёх лет назад
Disasm @Disasm

cudaThreadSynchronize();

Написано более трёх лет назад
oleksandr_veles @oleksandr_veles

наверное можно cudaEvent* использовать, не помню точно, но синхронизация ядер повлияет только на правильность вычислений, а скорость скорее даже уменьшиться.
Трудно советовать не зная параметров задачи, но обычно нужно оптимизировать в сторону больше операций в потоке, меньше пересылок данных. Например сгруппировать, чтобы в потоке(в ядре) обрабатывать сразу несколько нейронов (4,16,32 и более, зависит от параметров обращения в память) и\или возиться с кэшированием данных.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

А разве ядро не ждет пока завершится предыдущее?

Написано более трёх лет назад
oleksandr_veles @oleksandr_veles

Если не выставлена спец. переменная окружения и архитектура(железо+драйвер) позволяет, то не ждёт.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C++

Простой
Почему я могу изменять состояние объекта хранящийся в const std::unique_ptr и const std::shared_ptr?
- 1 подписчик
- вчера
- 71 просмотр
1

ответ
C++

+1 ещё

Простой
Это как вообще?
- 1 подписчик
- 20 авг.
- 159 просмотров
1

ответ
C++

+2 ещё

Простой
Можно ли использовать не парные Acquire/Release порядки памяти?
- 1 подписчик
- 16 авг.
- 167 просмотров
2

ответа
C++

Простой
Сборник задач на C++?
- 1 подписчик
- 16 авг.
- 117 просмотров
1

ответ
C++

Простой
Почему requires !std::is_void_v работает только для шаблона?
- 1 подписчик
- 15 авг.
- 58 просмотров
0

ответов
C++

Простой
Почему возникает ошибка C2512 в конструкторе с std::initializer_list?
- 1 подписчик
- 12 авг.
- 98 просмотров
1

ответ
C++

+1 ещё

Простой
Почему окружность получается отрисованной не ровно?
- 1 подписчик
- 11 авг.
- 196 просмотров
2

ответа
C++

Средний
Как инициализировать TCHAR*?
- 1 подписчик
- 08 авг.
- 90 просмотров
2

ответа
C#

+1 ещё

Средний
Где найти чистые исходники мобильного сервера SAMP / CRMP?
- 1 подписчик
- 06 авг.
- 156 просмотров
1

ответ
Поисковая оптимизация

Средний
Перейдут ли фильтры если сделать 301?
- 1 подписчик
- 06 авг.
- 107 просмотров
1

ответ
Показать ещё Загружается…

TechLead/Старший системный администратор (Office Infrastructure)

TravelLine • Санкт-Петербург

от 230 000 ₽

Старший системный администратор (Production Infrastructure)

TravelLine • Санкт-Петербург

от 250 000 ₽

Lead Product Designer

Atlantis

До 150 000 ₽

Answer 1 · 2012-11-16 13:09:34

Вот здесь результаты работы профайлера: ubuntuone.com/41OVwiE7NEd3fI9jALsFi6
Но, увы, я не понимаю, что это значит (я в CUDA новичек). Я был бы рад, если бы кто-то смог мне пояснить это.

Answer 2 · 2012-11-16 19:50:06

Так не копируйте данные, передавайте их сразу на вход ядру weighting (если они не изменяются ядром, конечно).
Ещё было бы неплохо дожидаться окончания работы ядер.

Answer 3 · 2012-11-16 22:23:48

1.Я бы ещё избавился от cudaFree cudaMalloc во внутреннем цикле, хотя не знаю точно насколько они медленные.
2. Использовал бы одинарную точность, двойная на nvidia на порядок медленнее, тем более на мобильной карте.
3. Присоединяюсь к совету дожидаться окончания работы ядер.

Answer 4 · 2014-02-07 09:11:08

Максим Милаков @mmilakov

Используйте CUBLAS

Ответ написан более трёх лет назад

Комментировать

Как можно оптимизировать этот кусочек CUDA-кода?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт