Linux, OpenMP и GCC: многопоточная программа в 5-6 раз медленнее однопоточной?

Question

Robotex @Robotex

Linux, OpenMP и GCC: многопоточная программа в 5-6 раз медленнее однопоточной?

Изучаю OpenMP, пытаюсь распараллелить нейронную сеть. Но почему-то постоянно получается, что расспараллеленное приложение существенно медленнее, чем обычное. В чем может быть проблема?

Однопоточное приложение:
pastebin.com/22vp3LYU

Компиляция:
g++ -lrt -O0 main.cpp -o nnlv2

Многопоточное:
pastebin.com/w3m01QTK

Компиляция:

g++ -lrt -fopenmp -O0 main_openmp.cpp -o nnlv2_openmp

P.S. Не обращайте внимания на функцию sigmoid, я в курсе, что она должна выглядеть по другому :)

Вопрос задан более трёх лет назад
5665 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 7

3 комментария

edeldm @edeldm

виноват, есть баг у тебя — ты не ждешь завершения работы ядер видюхи — надо делать
cudaThreadSynchronize();

— посмотри мой пример.
и на нем научись сначала.

Написано более трёх лет назад
edeldm @edeldm

если спросишь нафиг такое надо — отвечу. что при больших размерностях гридов и тредов у тебя могут быть дырки — т.е. должны стоять 1 в ячейках матрицы а их там нет — там 0…
имхо для разных видюх — по разному — надо брать значения гридов и тредов — с инфы о видюхе автоматом.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

А как это автоматом делается?

Написано более трёх лет назад

4 комментария

10 комментариев

Robotex @Robotex Автор вопроса

Если вручную выставить один поток, то время выполнения одинаковое, если больше то начинает расти.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

У меня тоже двухядерник, но почему-то результат прямо противоположный. Сейчас попробую с O3

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Странно, с O3 тоже медленнее выходит.

Может в таком случае выполнить для меня одну просьбу? Можете написать время выполнения обеих версий, изменяя константу LAYERS от 10 до 100 (ставите 10, компилируете, запускаете, потом 20, компилируете, запускаете) и какая у вас конфигурация? Заранее благодарен.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Спасибо.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Если вручную выставить num_threads(4), то время вроде как стабильно себя ведет. Почему-то на двух потоках оно вот так вот скачет

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Попробуй с четырьмя.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

От же ж блин, что за день сегодня такой. Еще и в куде время в 35 раз большее (хотя использовал многократно оттестированный код). Может я время коряво замеряю?

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Можно попробовать.

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

Со временем все впорядке :(

Написано более трёх лет назад
Robotex @Robotex Автор вопроса

блин, добился двойного прироста скорости в OpenMP, на следующий день опять то же самое (хотя исходник не менял)

Написано более трёх лет назад

1 комментарий

Комментировать

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 3 подписчика
- вчера
- 217 просмотров
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- 21 июл.
- 97 просмотров
4

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 303 просмотра
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1104 просмотра
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 339 просмотров
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 392 просмотра
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 302 просмотра
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 161 просмотр
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1190 просмотров
2

ответа
Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- 23 мая
- 442 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2011-04-05 17:45:40

еще есть
cudaMemcpyToSymbol( «alpha», &alpha, 4);

бегло просмотрел — вроде верно все.
могу дать совет начинающего радиста — не крути две гайки одновременно.

т.е. попробуй сначала просто копировать на видюху и обратно и проверяй значения на совпадения.
затем многотредовое.

я делаю еще такое (поделюсь куском кода :) ):

__global__ void RunTest(unsigned long *heartbeat)
{
	unsigned long tid = blockIdx.x*blockDim.x + threadIdx.x;
	heartbeat[tid] = 1;
}

void Runkerneltest(int grids, int threads, unsigned long *heartbeat)
{
	RunTest <<<grids, threads>>> (heartbeat);
}




bool TestKernel(int grids, int threads)
{
	unsigned long* heartbeat =  new unsigned long [grids*threads];
	memset (heartbeat, 0, grids*threads*sizeof (unsigned long)); 
	void* heartbeat_device = 0;
	cudaError err;
	err = cudaMalloc ((void**)&heartbeat_device, grids*threads*sizeof (unsigned long));
	Check("cudaMalloc heartbeat_device",err);
	err = cudaMemset (heartbeat_device, 0, grids*threads*sizeof(unsigned long));
	Check("cudaMemset heartbeat_device",err);

	Runkerneltest(grids,threads,(unsigned long*)heartbeat_device);

	err = cudaThreadSynchronize();
	Check("cudaThreadSynchronize()", err);
	err = cudaMemcpy( heartbeat, heartbeat_device, grids*threads*sizeof(unsigned long), cudaMemcpyDeviceToHost );
	Check("cudaMemcpy( heartbeat, heartbeat_device)", err);

	bool error = false;
	for (int i=0; i<grids*threads; i++)
		if (heartbeat[i] != 1) 
		{
			LOG("tid %d test fails",i);
			error = true;
			break;
		}

	cudaFree (heartbeat_device);
	delete (heartbeat);
	return (error ? false : true); //если была ошибка, то false
}

Answer 2 · 2011-03-24 08:21:31

Sergey Lerg @Lerg

Defold, Corona, Lua, GameDev

Используйте явные потоки. Например с помощью библиотеки pthread.

Ответ написан более трёх лет назад

4 комментария

Answer 3 · 2011-03-24 15:21:23

Оптимизировал код:

Однопоточная версия: pastebin.com/KAx4RmSJ
Многопоточная: pastebin.com/fbe4gZSn

Теперь многопоточная версия медленнее однопоточной всего в 2 раза (а нужно, чтобы минимум раза в 3 быстрее было). Что еще можно соптимизировать?

Answer 4 · 2011-03-25 16:31:03

Здесь последние версии кода: ubuntuone.com/p/jPV/

Исходник с куда компилится так:
nvcc -lrt main_cuda.cu -o nnlv2_cuda

Все по прежнему печально. Куда мало что медленнее, так еще и считает не верно. Что я делаю не так?

Answer 5 · 2011-04-06 10:02:43

параметры видюхи «автоматом» берутся отсюда:

cudaDeviceProp prop;
if(cudaGetDeviceProperties( & prop, i) == cudaSuccess) 
{
	LOG ("Device: %s\n",prop.name);
	LOG ( "Compute capability     : %d.%d\n", prop.major, prop.minor );
	LOG ( "Name                   : %s\n", prop.name );
	LOG ( "Total Global Memory    : %ld\n", prop.totalGlobalMem );
	LOG ( "Shared memory per block: %d\n", prop.sharedMemPerBlock );
	LOG ( "Registers per block    : %d\n", prop.regsPerBlock );
	LOG ( "Warp size              : %d\n", prop.warpSize );
	LOG ( "Max Grid               : %d\n", prop.maxGridSize[0] );
	LOG ( "Max threads per block  : %d\n", prop.maxThreadsPerBlock );
	LOG ( "Total constant memory  : %d\n", prop.totalConstMem );
...
 }

Answer 6 · 2011-04-06 14:13:42

Так у вас же там стоит atomic перед k++. На каждой итерации нити будут синхронизовываться, чтобы друг за дружкой сделать k++. Естественно, оно будет сильно медленней.

Answer 7 · 2011-05-24 10:24:22

А что если ускорения на двухядерной машине и не должно быть? В одном ядре обрабатывается основной цикл, в другом параллельная зона.

Linux, OpenMP и GCC: многопоточная программа в 5-6 раз медленнее однопоточной?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт