CUDA как правильно оптимизировать?

Question

Типа Программист @MegaCraZy6

Юзерь

CUDA

CUDA как правильно оптимизировать?

Есть кусок кода, как по мне он достаточно простой, но выполняется целых 5 миллисекунд, как-то это много, как для параллельных вычислений.

__global__ void kernel_compute_global_lighting(float* device_lenght_buff, CudaRenderWindow render_window, CudaRenderCamera camera, CudaRenderMap map, CudaRenderTextures textures, CudaRenderLight lights) {
	int pixel_coordinate_y = blockIdx.x * blockDim.x + threadIdx.x;
	int pixel_coordinate_x = blockIdx.y * blockDim.y + threadIdx.y;
	if (pixel_coordinate_y >= render_window.render_height || pixel_coordinate_x >= render_window.render_width)
		return;
	render_window.device_rendered_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].r = render_window.device_render_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].r * lights.device_light_pointers[0]->r;
	render_window.device_rendered_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].g = render_window.device_render_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].g * lights.device_light_pointers[0]->g;
	render_window.device_rendered_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].b = render_window.device_render_window[pixel_coordinate_y*render_window.render_width + pixel_coordinate_x].b * lights.device_light_pointers[0]->b;
}

Для того чтобы вызвать этот Kernel, использую такие параметры:
Сетка
X : (900 + 31) / 32
Y : (1400 + 31) / 32);
Потоки
X: 32
Y: 32

Пытался сжимать косвенную адресацию, делал промежуточный обьект для проведениче вычислений, чтоб сократить количество обращений к памяти. Но все что как по мне должно ускорять выполнение, наоборот делает задержку только больше.
Как мне тогда быть с изображениями выше 1024х800

Просто подскажите что именно тут больше всего влияет, устал рыть без результата...

Вопрос задан более трёх лет назад
109 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

freeExec @freeExec

Сделайте пустое тело метода, за сколько выполнится?

Написано более трёх лет назад

Типа Программист @MegaCraZy6 Автор вопроса

freeExec, Пустое выполняется за 0 миллисекунд.

Измеряю время выполнения так:

cudaDeviceSynchronize(); // Ожидание выполнения предыдущего кернела
	end = clock(); // остановка таймера от предыдущего кернала итд.
	cout << "Draw floor and roof-- " << ((double)end - start) / ((double)CLOCKS_PER_SEC) * 1000 << " , milliseconds." << endl;
	start = clock(); // запускаю таймер для кернала о котором идёт речь, ну и дальше понятно.
	kernel_compute_global_lighting << <grid, threads >> > (render_window->device_lenght_buff, *render_window, *render_window->camera, *render_window->map, *render_window->textures, *render_window->light);
	cudaDeviceSynchronize();
	end = clock();
	cout << "Global light--- " << ((double)end - start) / ((double)CLOCKS_PER_SEC) * 1000 << " , milliseconds." << endl;

Написано более трёх лет назад

freeExec @freeExec

MegaCraZy6, А если оставить расчёт только одного канала. Ещё у nvidia была тулза для показа затыков при копировании и доступа к памяти.

Написано более трёх лет назад

Типа Программист @MegaCraZy6 Автор вопроса

freeExec, Ля.
Забавно, переделал код, под одномерный массив, и полетела ласточка
0-1 миллисекунд.
:|

__global__ void kernel_compute_global_lighting(float* device_lenght_buff, CudaRenderWindow render_window, CudaRenderCamera camera, CudaRenderMap map, CudaRenderTextures textures, CudaRenderLight lights) {
	int addr = threadIdx.x + blockIdx.x * blockDim.x;
	render_window.device_rendered_window[addr].r = render_window.device_render_window[addr].r * lights.device_light_pointers[0]->r;
	render_window.device_rendered_window[addr].g = render_window.device_render_window[addr].g * lights.device_light_pointers[0]->g;
	render_window.device_rendered_window[addr].b = render_window.device_render_window[addr].b * lights.device_light_pointers[0]->b;
}

Написано более трёх лет назад

freeExec @freeExec

MegaCraZy6, Так то в этом главная проблема, для производительности ему требуется, чтобы одному варпу нужны были данные в пределах 256 байт. Тогда он их запросит за одни раз. А когда у тебя двумерный массив, то данные разбросаны и основное время простоя это просто ожидание данных.

Написано более трёх лет назад
Типа Программист @MegaCraZy6 Автор вопроса

freeExec, На самом деле большое спасибо, у меня с этим есть проблемы во всем коде, я читал куча статей, и там столько этих правил оптимизации, немного голова кругом идёт. Спасибо, пожалуй пока-что везде буду одномерный использовать).

Написано более трёх лет назад
freeExec @freeExec

MegaCraZy6, Можно и двумерный, если он достаточно большой и запускать треды построчно.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия Графический дизайнер PRO

15 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видеокарты

+2 ещё

Простой
Существует ли софт, позволяющий задействовать всю мощь CUDA при кодировании видеофайлов?
- 2 подписчика
- 19 июл.
- 870 просмотров
3

ответа
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 841 просмотр
2

ответа
NVIDIA

+2 ещё

Простой
Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?
- 2 подписчика
- 10 мар.
- 549 просмотров
0

ответов
Нейронные сети

+2 ещё

Простой
Возможен ли запуск нейросети на видеокарте для майнинга?
- 2 подписчика
- более года назад
- 1185 просмотров
1

ответ
3D

+2 ещё

Средний
Какой принцип в Ray Trasing рендеринге, как работает подробно?
- 1 подписчик
- более года назад
- 114 просмотров
3

ответа
Алгоритмы

+3 ещё

Простой
Как в вершинjм буфере вычисляются глобальные координаты?
- 1 подписчик
- более года назад
- 74 просмотра
0

ответов
GPGPU

+1 ещё

Средний
Что конкретно такое Streaming Multiprocessor?
- 1 подписчик
- более года назад
- 172 просмотра
1

ответ
C++

+2 ещё

Простой
Какая память быстрее локальная или разделямая cuda?
- 1 подписчик
- более года назад
- 107 просмотров
0

ответов
MP3

+2 ещё

Сложный
Ядра CUDA. Эффективность в кодировании/декодировании mp3 файлов?
- 1 подписчик
- более года назад
- 69 просмотров
1

ответ
C#

+3 ещё

Сложный
Почему паралельная сортировка слиянием выполняется на cpu быстрее чем на gpu в 100 раз?
- 4 подписчика
- более года назад
- 586 просмотров
1

ответ
Показать ещё Загружается…

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

Главный менеджер управления поддержки продаж сети

ПСБ цифровая лаборатория • Москва

от 110 000 до 130 000 ₽

Аналитик-разработчик (команда Intelligent Search)

Сбер • Москва

от 250 000 до 400 000 ₽

Сделайте пустое тело метода, за сколько выполнится?
freeExec, Пустое выполняется за 0 миллисекунд.

Измеряю время выполнения так:

cudaDeviceSynchronize(); // Ожидание выполнения предыдущего кернела end = clock(); // остановка таймера от предыдущего кернала итд. cout << "Draw floor and roof-- " << ((double)end - start) / ((double)CLOCKS_PER_SEC) * 1000 << " , milliseconds." << endl; start = clock(); // запускаю таймер для кернала о котором идёт речь, ну и дальше понятно. kernel_compute_global_lighting << <grid, threads >> > (render_window->device_lenght_buff, *render_window, *render_window->camera, *render_window->map, *render_window->textures, *render_window->light); cudaDeviceSynchronize(); end = clock(); cout << "Global light--- " << ((double)end - start) / ((double)CLOCKS_PER_SEC) * 1000 << " , milliseconds." << endl;
MegaCraZy6, А если оставить расчёт только одного канала. Ещё у nvidia была тулза для показа затыков при копировании и доступа к памяти.
freeExec, Ля.
Забавно, переделал код, под одномерный массив, и полетела ласточка
0-1 миллисекунд.
:|

__global__ void kernel_compute_global_lighting(float* device_lenght_buff, CudaRenderWindow render_window, CudaRenderCamera camera, CudaRenderMap map, CudaRenderTextures textures, CudaRenderLight lights) { int addr = threadIdx.x + blockIdx.x * blockDim.x; render_window.device_rendered_window[addr].r = render_window.device_render_window[addr].r * lights.device_light_pointers[0]->r; render_window.device_rendered_window[addr].g = render_window.device_render_window[addr].g * lights.device_light_pointers[0]->g; render_window.device_rendered_window[addr].b = render_window.device_render_window[addr].b * lights.device_light_pointers[0]->b; }
MegaCraZy6, Так то в этом главная проблема, для производительности ему требуется, чтобы одному варпу нужны были данные в пределах 256 байт. Тогда он их запросит за одни раз. А когда у тебя двумерный массив, то данные разбросаны и основное время простоя это просто ожидание данных.
freeExec, На самом деле большое спасибо, у меня с этим есть проблемы во всем коде, я читал куча статей, и там столько этих правил оптимизации, немного голова кругом идёт. Спасибо, пожалуй пока-что везде буду одномерный использовать).
MegaCraZy6, Можно и двумерный, если он достаточно большой и запускать треды построчно.

Answer 1 · 2020-08-05 09:25:53

Во-первых, стоит удостовериться, что Вы измерили именно скорость выполнения кода, а не загрузки данных, выполнения и выгрузки результата.
Во-вторых, попробуйте избавиться от if совсем (можно добавить неиспользуемые поля до размера блока).
В-третьих, используйте векторное умножение вместо отдельных операций в три строки.
В-четвертых, посмотрите размеры блока для вашей карты, может не влезаете.

CUDA как правильно оптимизировать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт