Что конкретно такое Streaming Multiprocessor?

Question

SergeySerge11 @SergeySerge11

GPGPU
CUDA

Что конкретно такое Streaming Multiprocessor?

Все не могу понять, что это такое. Есть ли пример что бы стало понятно.

Например ядро запускается с размером блока 1024 потоков, и так 100 блоков. Мультипроцессор он где там?
Блоки же по порядку запускаются по 1024 потока, Если не так, то каким образом они могут делить shared memory. если один блок сразу резервирует всю?
1 SM с чем ассоциирован. с 1024 потоками группами, или там 32 потоками варпа, или 100 потоками каждого блока? Или вообще все не так.
Я из лекции услышал, что каждый мультипроцессор выполняется одновременно, и каждый работает со своими данными, например каждый обрабатывает свой тайл пикселей, в идеале независимо, Если так, ТО ТУТ возникает непонятная дилемма. Если их там 20 например, как Они могут Выделять по 60кб Разделяемой памяти каждый. Если ее всего на видеокарте 60? А они типа независимо, и их разделямая память должна быть географически к разным данным привязана быть. Тогда они обязаны выполнятся последовательно, тогда смысл в этом термине ноль, либо работать с одной и той же памятью, Дак и Блок потоков и выполняется одновременно, либо nvidia обманывает в конфигурации.

Поправлю, точно не знаю сколько разделяемой памяти на видеокарте, написано 48кб на группу, это всего 48, или это 48*24 мультипроцессора?
Например что происходит когда я запускаю 25 копий программ с выделением макс разделяемой памяти, в вечном цикле. Каким образом больше 1 программы запускаются, если ождна должна занять всю shared memory и не может отпустить так как вечный шаффл цикл.

Он на этой картинке где вертикально горизонтально, может по гипотинузе

Вопрос задан более года назад
161 просмотр

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик с нуля

6 месяцев

Далее
Skillfactory

DevOps-инженер

6 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видеокарты

+2 ещё

Простой
Существует ли софт, позволяющий задействовать всю мощь CUDA при кодировании видеофайлов?
- 2 подписчика
- 19 июл.
- 860 просмотров
3

ответа
Виртуализация

+1 ещё

Простой
Проброс GPU на большое количество виртуальных машин?
- 1 подписчик
- 08 мая
- 242 просмотра
3

ответа
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 818 просмотров
2

ответа
NVIDIA

+2 ещё

Простой
Проблемы с обучением Flux LoRA (персонаж) локально. Как это делается?
- 2 подписчика
- 10 мар.
- 532 просмотра
0

ответов
Нейронные сети

+2 ещё

Простой
Возможен ли запуск нейросети на видеокарте для майнинга?
- 2 подписчика
- более года назад
- 1157 просмотров
1

ответ
3D

+2 ещё

Средний
Какой принцип в Ray Trasing рендеринге, как работает подробно?
- 1 подписчик
- более года назад
- 113 просмотров
3

ответа
Алгоритмы

+3 ещё

Простой
Как в вершинjм буфере вычисляются глобальные координаты?
- 1 подписчик
- более года назад
- 74 просмотра
0

ответов
C++

+1 ещё

Сложный
Почему при меньшем размере блока потоков в группе, скорость такая же?
- 2 подписчика
- более года назад
- 135 просмотров
1

ответ
C++

+2 ещё

Простой
Какая память быстрее локальная или разделямая cuda?
- 1 подписчик
- более года назад
- 105 просмотров
0

ответов
Показать ещё Загружается…

Программист встраиваемого ПО

ДМС Передовые Технологии • Москва

от 240 000 ₽

Технический руководитель/Technical Lead(государственная информационная система)

ЛАНИТ • Москва

До 400 000 ₽

Linux администратор HPC стека

Сбер • Москва

от 200 000 до 350 000 ₽

Я честно говоря никогда это не программировал хотя интересно. Вот фрагмент документации с CUDA.

https://docs.nvidia.com/cuda/cuda-c-programming-gu...

A GPU is built around an array of Streaming Multiprocessors (SMs) (see Hardware Implementation for more details). A multithreaded program is partitioned into blocks of threads that execute independently from each other, so that a GPU with more multiprocessors will automatically execute the program in less time than a GPU with fewer multiprocessors.

Answer 1 · 2024-12-26 16:10:13

SM абстрактная единица вычисления которая объединяет ядра обычно по 8 штук в каждом ядре минимум по 32 потока называемых варпом.

Если так, ТО ТУТ возникает непонятная дилемма. Если их там 20 например, как Они могут Выделять по 60кб Разделяемой памяти каждый. Если ее всего на видеокарте 60?

Память не только на видеокарте, блоки становятся в очередь используя RAM, или даже катают SSD. Память же бывает не только VRAM.

Разделяемой памяти каждый

shared memory это не общая память которая помогает потокам обмениваться данными. Не читайте переводные статьи, они переводят всё подряд при помощи автоматизированных переводчиков, например "разделяемая память".

Что конкретно такое Streaming Multiprocessor?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт