Что выбрать для параллельных вычислений на GPU с большой точностью?

Question

Имя @mrjbom

Параллельные вычисления

Что выбрать для параллельных вычислений на GPU с большой точностью?

Мне нужно производить вычисления с комплексными числами с точностью выше чем double, т.е. с использованием сторонних библиотек.
Я так-же не хотел бы глубоко вникать в сами параллельные вычисления, а лишь сделать то, что мне требуется, поэтому хочу выбрать что-то попроще.
Выбор стоит между CUDA и OpenCL, мне известно что CUDA только для Nvidia, но это особо не пугает.
Мне нужна возможность отображать вычисленные данные на экран, для этого я вероятно использую OpenGL, но могу и Vulkan если это потребуется.
Так что мне лучше выбрать для таких требований?

Вроде как CUDA попроще и документации/примеров больше, так ли это?
И возможно ли CUDA и OpenGL связать с OpenGL для что-бы не копировать данные через CPU.

Вопрос задан более двух лет назад
354 просмотра

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

Имя @mrjbom Автор вопроса

Фракталы считаю, там очень быстро упирается приближение в точность double.

Написано более двух лет назад
pfg21 @pfg21

задумался посмотрел, не хватит 2^128 для сохранения размера вселенной в планковских длинах :)
понадобится чтото около 2^203. в 256 бит влезет :)

Написано более двух лет назад
mayton2019 @mayton2019

pfg21, рисуешь Множество Мандельброта?

Написано более двух лет назад
Имя @mrjbom Автор вопроса

mayton2019, да

Написано более двух лет назад
mayton2019 @mayton2019

Имя, мне вот тоже было всегда интересно. Взял язык высокого уровня. Типа С++ или Rust
с шаблонами. И объявил свой тип

class FloatingPoint[256, 20] { ... }

И сразу получил арифметику 256 битных вещественных с экспонентой в 20 бит к примеру.
Ну и правила Nan/Infinity - пускай останутся как и были.

Что будет - в implementations? Всякие с++ intrisics c SSE/AVX операциями. Мне уж это
будет безразлично. Главное чтоб я не тратил время на реализацию.

Написано более двух лет назад
Имя @mrjbom Автор вопроса

mayton2019, да так-то есть библиотеки для этого, но в GPU это всё не работает

Написано более двух лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видеокарты

+3 ещё

Простой
Как получить бесплатные вычислительные мощности для исследований?
- 4 подписчика
- более года назад
- 1085 просмотров
4

ответа
Python

+1 ещё

Простой
Почему зависает дочерний процесс созданный с помощью Pool?
- 1 подписчик
- более двух лет назад
- 119 просмотров
0

ответов
Книги

+1 ещё

Простой
Какую книгу про параллельное программирование стоит почитать программисту-теоретику?
- 1 подписчик
- более двух лет назад
- 439 просмотров
2

ответа
Python

+3 ещё

Средний
Как вынести вычисления ходов в отдельный поток на Tkinter?
- 1 подписчик
- более двух лет назад
- 63 просмотра
0

ответов
Алгоритмы

+3 ещё

Сложный
Как найти компоненты связности в графе в распределенной памяти?
- 1 подписчик
- более двух лет назад
- 360 просмотров
1

ответ
.NET

+3 ещё

Простой
Стоит ли углубленно изучать многопоточность, асинхронное и паралельное программирование?
- 2 подписчика
- более двух лет назад
- 437 просмотров
4

ответа
C++

+2 ещё

Средний
Как убедиться что атомарные операции будут выполнены точно правильно?
- 2 подписчика
- более трёх лет назад
- 335 просмотров
3

ответа
C

+1 ещё

Простой
Как умно распараллелить вложенный цикл OpenMP?
- 2 подписчика
- более трёх лет назад
- 459 просмотров
1

ответ
C++

+2 ещё

Средний
Ошибка Unhandled exception at 0x0099B514 in ConsoleApplication15.exe: 0xC0000094: Integer division by zero. Как исправить это?
- 1 подписчик
- более трёх лет назад
- 456 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2024-06-30 20:12:29

В терминологии С++ выше double (64bit) находится __float128.
Я-бы проверил поддерживает ли CUDA/OpenCL эти типы
на уровне API. Если вдруг не поддерживает - то придется
их реализовывать самому.

До того как их реализовывать я-бы спросил у автора - действительно
ли ему нужны числа с такой мантиссой и экспонентой как он хочет
и для каких алгоритмов. В большинстве случаев в алгоритмах
всегда есть маневр. Есть возможность где-то срезать углы и не делать
избыточных расчетов. Тем более что для нужд физики обычного double
хватает. Что такого надо считать чтобы double не хватало - я не знаю.
Поперечник обозримой вселенной в пропорции к планковской длине?

Answer 2 · 2024-06-30 19:19:09

К сожалению оценка будет сильно привязана к железу, а помятую о ситуации на рынке, переставшим быть глобальным, еще и сильно будет зависеть от стоимости используемого железа.

Если гуглить, обнаруживается достаточно старая статья dwave по которой в пределах одного nvidia устройства разница в производительности (там считали кубиты, а там как раз математика непростая, комплексные числа и т.п.) достигала от 13% до 60% в пользу cuda, что логично. Но статья 14-летней давности, с тех пор и llvm подросло, и amd на рынок взошла как следует.

Допускаю что и в современных реалиях cuda будет работать быстрее за счет каких-нибудь оптимизаций или если найдешь уже вручную оптимизированную библиотеку под твою задачу, но opencl не привяжет твое решение гвоздями к значительно подорожавшим nvidia железкам (если сравнивать железо от разных производителей с одной ценой, скорость у amd может оказаться выше)

но не на много.

Что выбрать для параллельных вычислений на GPU с большой точностью?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт