Как использовать локальную память видеокарты и быстрее ли она по сравнению с разделяемой?
Для разделяемой и константной памяти есть идентификаторы.
Верно ли, что переменные, объявленные внутри ядра, используют локальную память? И какая у неё скорость в сравнении с разделяемой и константной?
Локальная и глобальная память самая медленная. Регистровая самая быстрая, переменные объявленные внутри ядра по идее в ней хранятся. shared память разделяется на пул тредов (варп в контексте CUDA).