Как распараллелить функции на cuda?

Question

Клай @Pushunter

Как распараллелить функции на cuda?

Здравствуйте, пишу нейросеть для распознавания цифр на cuda. Хочу получить максимум ускорения. На питоне 10 000 тренировок проходят за 20 секунд. На C++ за 10секунд. Вот теперь настал черед cuda. Есть класс neuralNet и в нем 3 функции: конструктор, тренировка и опрос. Как мне параллельно вызвать сразу несколько функций тренировки?Понимаю, что там нужны будут управляющие потоки и блокированная память, но мало с этим работал и не могу собрать все воедино.
Заранее спасибо за ответ)

Вопрос задан более трёх лет назад
132 просмотра

2 комментария

Подписаться 1 Простой 2 комментария

freeExec @freeExec

CUDA это на порядок сложнее, чем запустить функцию в несколько потоков. Здесь совсем другая парадигма программирования, нужно мыслить не функциями, а блоками, тредами и их индексами. Надо разделять где глобальная память, а где память треда. Надо всегда учитывать блочное копирование данных, а не абы как. Не забывать про синхронизацию в варпе, а не искать потом баги.
Написать код по тостеру конечно вероятность имеется, но он явно не будет скоростной как вам хочется. С наскока ничего не выйдет, как минимум нужно прочитать документацию, а как максимум попробовать каждый пример из неё.

Написано более трёх лет назад
Вадим Мамонов @dikysa

С верхним комментарием соглашусь. Попробуйте с легкого, а именно использовать готовые библиотеки cublas, cusparse, thrust, для этого вам необходимо разбить ваш код на последовательность векторных, матричновекторных или матричных операций и использовать библиотечные вызовы. Однако thrust больше возможностей и там можно реализовать некоторые операции чисто под себя для вызова на CUDA. Вообщем не стремитесь сами писать свои KERNEL для CUDA, т.к. много разбираться нужно в начале.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

ИИ в медицине: как использовать в работе каждый день

8 недель

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее
Бруноям

ИИ-агенты и n8n

2 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 81 просмотр
1

ответ
Нейронные сети

Простой
Как решить проблему с генерацией видео в Kling AI?
- 1 подписчик
- 09 июл.
- 81 просмотр
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 153 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Нейронные сети

Средний
Как в AI ToolKit для тренировки LorA указать свои модели?
- 1 подписчик
- 09 июн.
- 74 просмотра
1

ответ
Нейронные сети

Простой
Есть ли нейросети для интерактивной работы с изображениями?
- 2 подписчика
- 13 мая
- 290 просмотров
2

ответа
Боты

+1 ещё

Простой
Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
- 2 подписчика
- 06 мая
- 407 просмотров
5

ответов
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Возможно ли создать ии агента для автоматической рассылки сообщений на сайте знакомств?
- 1 подписчик
- 19 мар.
- 200 просмотров
3

ответа
Карьера в IT

+2 ещё

Простой
Какие нейросети помимо ChatGPT эффективны в IT?
- 1 подписчик
- 03 мар.
- 1296 просмотров
9

ответов
Показать ещё Загружается…

CUDA это на порядок сложнее, чем запустить функцию в несколько потоков. Здесь совсем другая парадигма программирования, нужно мыслить не функциями, а блоками, тредами и их индексами. Надо разделять где глобальная память, а где память треда. Надо всегда учитывать блочное копирование данных, а не абы как. Не забывать про синхронизацию в варпе, а не искать потом баги.
Написать код по тостеру конечно вероятность имеется, но он явно не будет скоростной как вам хочется. С наскока ничего не выйдет, как минимум нужно прочитать документацию, а как максимум попробовать каждый пример из неё.
С верхним комментарием соглашусь. Попробуйте с легкого, а именно использовать готовые библиотеки cublas, cusparse, thrust, для этого вам необходимо разбить ваш код на последовательность векторных, матричновекторных или матричных операций и использовать библиотечные вызовы. Однако thrust больше возможностей и там можно реализовать некоторые операции чисто под себя для вызова на CUDA. Вообщем не стремитесь сами писать свои KERNEL для CUDA, т.к. много разбираться нужно в начале.

Как распараллелить функции на cuda?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт