Почему процессоры gpu не любят разветвлений в программе?

Question

Евгений Лернер @ehevnlem

Программирую с 1975, в интернете с 1993.

GPGPU

Почему процессоры gpu не любят разветвлений в программе?

Я читал что процессоры одного ядра выполняют один набор инструкций для разных данных. Разветвления в коде нарушают их работу. Что происходит? Я читал что все процессоры ждут одного, пока он не закончил работу.

Вопрос задан более двух лет назад
490 просмотров

6 комментариев

Подписаться 3 Простой 6 комментариев

Saboteur @saboteur_kiev

А где читал? Цитату или источник можно?
Потому что я такого не слышал.

Написано более двух лет назад
GavriKos @GavriKos

Скорее всего речь о шейдерных обработчиках и многопотоковой обработке. Да, не любят, потому что если страдает эта самая многопоточность

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Saboteur, забыл источник .
Потому и спрашиваю

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

GavriKos, понятно что страдает.
Хотелось бы знать как именно страдает. Возможно для некоторых случаев ущерб не так уж велик

Написано более двух лет назад
mayton2019 @mayton2019

Я тоже читал про это. Кажется в руководстве по OpenCL.

Написано более двух лет назад
Adamos @Adamos

Ну из самых общих соображений: процессоры GPU - это тупые числодробилки, берущие числом. Их можно нагрузить, когда заранее известно, какие данные считать, и этот расчет распараллеливается по всем доступным ядрам.
Первое же ветвление - и уже нужно считать другие данные, вот это все сливаем, увеличиваем энтропию...

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Пригласить эксперта

Ответы на вопрос 4

3 комментария

Владимир Коротенко @firedragon

Ubuntu Pro, я не настолько специалист. я просто указываю на вполне очевидные вещи

Написано более двух лет назад
Wan-Derer @Wan-Derer

Ubuntu Pro, Если речь про процессоры общего назначения, то нет, неправильно. Процессор общается с ОЗУ не через шину, а через собственный контроллер памяти, соответственно шина никак не мешает ему выбирать команды и обмениваться данными. Кроме того, процессор имеет встроенную кэш-память, так что ряд вычислений он вообще выполняет "внутри себя", без обращения к чему-либо.
Шина нужна для связи процессора с внешними устройствами: видюха/звуковуха, диск, порты, сеть и пр.
Скорость программы зависит от её характера. Если это много счёта и минимум обращения к внешним устройствам - шина влияет мало, если идёт интенсивный обмен с диском - то да, проц будет в основном стоять и ждать пока данные прочитаются/запишутся.
Что касается многопроцессорных систем, то тут тоже всё зависит от ПО. Даже на одинаковых процессорах можно наблюдать неравномерную загрузку ядер. Так что ответ тут: как напишешь, так и будет работать :)

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Похоже надо пробовать во что обходится перезагрузка при ветвления. Предполагается что ветвление событие редкое, главное чтобы прога не ломалась

Написано более двух лет назад

4 комментария

mayton2019 @mayton2019

Да. Поскольку мы хотя-бы немного знаем о количественных характеристиках Intel/Ryzen (количество ядер или потоков) неплохо-бы в топик втащить немного цифр для любой одной современной видяшки NVidia
просто чтобы понять с чем вообще имеем дело. Сколько kernels, work items. Что они шарят. Какие
у них ограничения на выполнение. И тут топик даже не про goto а скорее просто про ограничения
на GPU вычисления.

Кто знает эти цифры про флагманские модели NVidia - прошу поделитесь.

Написано более двух лет назад
rPman @rPman

Количество ядер изветсно из общих характеристик, в linux можно чуть больше подробностей получить командой clinfo, как интерпретировать информацию лучше гуглить по отдельности, ее там много и она актуальна для тех кто действительно глубого лезет в оптимизацию.

Обывателю достаточно подобрать нужные глобальные параметры (в т.ч. work size) - экспериментально, в конечном счете все будет зависеть от конкретного кода и использования оперативной памяти и возможностей по ее кешированию, т.е. если данные влезают в кеш десять раз (все сложнее), значит десять одновременно работающих ядер с этим данными будут работать на максимуме эффективности, а вот 11 будут в разы медленнее.

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Ясно что надо знать все числовые характеристики, особенно объем и скорость разных видов памяти . Данный вопрос именно о реакции программы на ветвление. Похоже что точно это не известно

Написано более двух лет назад
rPman @rPman

Евгений Лернер, погугли термин thread divergence, он именно и появился из-за описанной мной в ответе проблемы

современные gpu состоят из нескольких независимых блоков (если я верно понял это SM - Streaming Multiprocessors) но в пределах блока синхронность исполнения инструкций да.

Написано более двух лет назад

4 комментария

Евгений Лернер @ehevnlem Автор вопроса

Так все сломается, программа перестанет работать ? Или все таки задержка,перестройка?

Написано более двух лет назад
Евгений Лернер @ehevnlem Автор вопроса

Понятно что ситуация не штатная. Хотелось бы знать точные временные значения. Видимо надо пробовать. Надеюсь видеокарта не взорвется

Написано более двух лет назад
vadimr @vadimr

Евгений Лернер, ничего не сломается, просто gpu не будет быстро работать и от него не будет пользы.

Написано более двух лет назад
vadimr @vadimr

Евгений Лернер, считайте, что условный оператор равен по времени выполнению на gpu огромному количеству других операторов.

Если только компилятор не изыщет возможности его устранить, но это другая история.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Виртуализация

+1 ещё

Простой
Проброс GPU на большое количество виртуальных машин?
- 1 подписчик
- 08 мая
- 246 просмотров
3

ответа
C++

+1 ещё

Сложный
Почему при меньшем размере блока потоков в группе, скорость такая же?
- 2 подписчика
- более года назад
- 139 просмотров
1

ответ
GPGPU

+1 ещё

Средний
Что конкретно такое Streaming Multiprocessor?
- 1 подписчик
- более года назад
- 174 просмотра
1

ответ
C++

+2 ещё

Простой
Какая память быстрее локальная или разделямая cuda?
- 1 подписчик
- более года назад
- 107 просмотров
0

ответов
C#

+3 ещё

Сложный
Почему паралельная сортировка слиянием выполняется на cpu быстрее чем на gpu в 100 раз?
- 4 подписчика
- более года назад
- 586 просмотров
1

ответ
C#

+2 ещё

Сложный
Как запускаются потоки в группах на gpu, какие есть гарантии, может ли поток из другой группы запустится раньше времени?
- 3 подписчика
- более года назад
- 629 просмотров
0

ответов
C#

+2 ещё

Сложный
Откуда возникает ошибка при gpu вычислений при увеличении числа данных, в ILGPU Cuda ускорителе?
- 1 подписчик
- более года назад
- 111 просмотров
0

ответов
C#

+3 ещё

Сложный
Gpu вычисления, groupId theradId gridId что означают, как пользоваться?
- 2 подписчика
- более года назад
- 107 просмотров
0

ответов
C++

+2 ещё

Средний
Как перебирать массив из 16 элементов 16 раз в c++ с подключением видеокарты?
- 2 подписчика
- более двух лет назад
- 297 просмотров
1

ответ
Python

+2 ещё

Средний
Как перебирать свой массив с помощю numba на cuda в питоне?
- 1 подписчик
- более двух лет назад
- 160 просмотров
0

ответов
Показать ещё Загружается…

Специалист по управлению мастер данными

Vital Partners

от 200 000 до 270 000 ₽

Technical support (Ассистент Product Owner)

uKit Group • Ростов-на-Дону

от 50 000 до 55 000 ₽

Fullstack разработчик Middle+ / .NET + React / Трейдинг тематика

LCap • Алматы

До 2 600 €

А где читал? Цитату или источник можно?
Потому что я такого не слышал.
Скорее всего речь о шейдерных обработчиках и многопотоковой обработке. Да, не любят, потому что если страдает эта самая многопоточность
Saboteur, забыл источник .
Потому и спрашиваю
GavriKos, понятно что страдает.
Хотелось бы знать как именно страдает. Возможно для некоторых случаев ущерб не так уж велик
Я тоже читал про это. Кажется в руководстве по OpenCL.
Ну из самых общих соображений: процессоры GPU - это тупые числодробилки, берущие числом. Их можно нагрузить, когда заранее известно, какие данные считать, и этот расчет распараллеливается по всем доступным ядрам.
Первое же ветвление - и уже нужно считать другие данные, вот это все сливаем, увеличиваем энтропию...

Answer 1 · 2023-07-03 14:56:51

Шина pci express просто тихоход по сравнению с памятью карты, и сами CUDA ядра по своей природе работают только вместе. Так что любое условие сбрасывает конвейер и загружает pci express причем ядра в это время простаивают.

Answer 2 · 2023-07-03 18:40:48

не совсем верно это помещать в ответ, я не уверен.

Если я верно понимаю, код в GPU общий для всех ядер (там правда разные типы, не только вычислительные, и у каждого свой язык и правила, но мы говорим про конкретно вычисления), это значит когда ты запускаешь kernel, инструкции выполняются одновременно на всех ядрах синхронно,.. прыжок по условию это пропуск какой то секции инструкций, это значит ядра, у которых выбран пропуск инструкций будут ждать когда другие ядра, для которых нужно пройти эту секцию, завершат вычисления (гуглить thread divergence).

Но это было актуально на заре появления gpgpu, возможно сейчас все сложнее, внутри чипа ядра распределены по нескольким блокам, сами блоки как то разделяют память, есть своя регистровая и кеш память.

Кстати на практике большее значение имеет работа именно с оперативной памятью, там она блоками разбита, как именно блоки общаются между собой вопрос (единая шина или матричная структура это хз) но в любом случае если код ждет память, его будут ждать все (соответственно все в пределах секции)... компилятор почти наверняка кеширует данные из глобальной памяти в разделяемую и регистровую (для блоков и соответственно ядер), т.е. все будет зависеть еще и от работы оптимизатора.

Answer 3 · 2023-07-04 15:23:15

Процессор GPU выполняет так называемую векторно-конвейерную обработку. Это означает, что у него имеется набор конвейеров для векторов, то есть связанных между собой функциональных узлов, которые по очереди совершают однотипные операции над элементами массивов. Представьте себе конвейер на автомобильном заводе – на первом рабочем месте на шасси привинтили двигатель, потом конвейер подвинулся, стали там же прикручивать двигатель на следующее шасси, а на первое шасси в это время на втором рабочем месте устанавливают коробку передач, и т.д. Так же и в векторно-конвейерном процессоре. Он построен на том, что на каждом этапе конвейера выполняются одинаковые операции над разными элементами вектора. Компилятор разворачивает операции с массивами или простой цикл в такую конвейерную обработку. А если там будут условные операторы, всё сломается. Получится, что рабочий иногда должен монтировать двигатель, а иногда клетку с хомячком вместо него. Разброд и шатания, тем более, что эти операции могут быть разными по продолжительности. Конвейер так не работает. Поэтому условная операция будет вызывать очень длительную перенастройку контейнера на новую последовательность операций обработки.

Answer 4 · 2023-07-04 20:01:54

Спасибо за подсказки. https://www.google.com/url?sa=t&source=web&rct=j&o...
Здесь описан benchmark который определяет цену развлетвений. Наверное это единственный способ ее узнать. Также у меня был вопрос о быстродействии иобеме разных видов памяти карты. Тоже надо писать benchmark

Почему процессоры gpu не любят разветвлений в программе?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт