Используют ли в нейронных сетях вычисления с пониженной разрядностью?

Question

Евгений Лернер @ehevnlem

Программирую с 1975, в интернете с 1993.

Используют ли в нейронных сетях вычисления с пониженной разрядностью?

Разрядность 64 и даже 32 слишком велика для нейронных сетей. Например тензорный вычислитель гугоа имеет разрядность 8. Вопрос состоит из двух:
1) Известны ли вам программы, в которых на cpu или gpu вычисляли бы с разрядностью 8?Т.е. 64-разрядный процессор за раз делает 8 сложений или умножений. Например, интересно было бы знать, используют ли 8-разрядные вычисления в самых распространенных пакетах, типа tensorflow
2) Известны ли вам программы, в которых нейронная сеть обучалась бы с разрядностью 8, а потом коэффициент уточнялись с разрядностью 16 или 32, — нечто похожее на жадный алгоритм?

Вопрос задан более трёх лет назад
257 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

16 комментариев

Евгений Лернер @ehevnlem Автор вопроса

это полезная информация. физически ядра gpu 'это 32 разряда. я ожидал что снижение разрядности не используют. это вдохновляет. я написал в вопросе что тензорный процессор гугла использует 8 разрядов. можно обучить с этой точностью а потом утчонить. получится быстрее. некоторые призводители gpu дают ассемблер, можно попробовать с 8 разрядами

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, программа, написанная на ассемблере под конкретный GPU АБСОЛЮТНО, то есть ДАРОМ, никому не нужна по той банальной причине, что завтра на рынке будет господствовать уже другой GPU с другими инструкциями, и эту программу можно будет только выбросить к чертям.

Уже сейчас многие испытывают лютый головняк с тем, что проекты для TF-1 не работают с CUDA-11, а следовательно с новыми картами NVIDIA-RTX.

Ребята из поддержки TF пишут - буквально следующее "Мир не стоит на месте, все обновляется, и вы выбрасывайте свой старый код и переходите на TF-2"

В то время, когда тренд идет на JIT-компиляцию (ребята из NVIDIA называют это XLA), вы предлагаете сделать шаг назад (ага, в семидесятые), и начать писать вычислительные ядра в машкоде. Дичь, короче.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, уважаемый, вы можете ответить на вопрос ? дя я буду писать в кодах для своей задачи. извините что я забыл с вами посоветоваться

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, Я не отвечаю на вопрос, я комментирую. Комментарии предназначены для того, чтобы комментировать, как ни странно. А ваши вопросы, причем все, очень сильно напоминают проблему X-Y - вы решаете вполне стандартную (я бы сказал, попсовую) для индустрии задачу каким то своим, неведанным нам способом.

Там где проблема просто затыкается деньгами (то есть, новым ускорителем), вы изобретаете нечто. Потом тому человеку, которому это достанется в виде легаси, будет так весело, что вы себе не представляете.

Если речь идет о личном интересе, можете конечно творить что захотите, но если это кем-то оплачивается - у вашего работодателя большие проблемы.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, я сам себе работодатель. и мне надо выжать максимум из железа. мне бы хотелось услышать что то полезное. прежде чем заказывать эту прогу я хотел бы поискать аналоги. я думаю что массовые продукты не делают в кодах не потому что не умеют а именно по тем причинам которые вы изложили. но у меня не массовый продукт

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, так это в корне меняет дело - если так, вы в праве творить что угодно. С другой стороны, тогда непонятно, для чего вы оглядываетесь на индустрию, задавая один за другим вопросы "а делают ли в индустрии вот так?".

Я обычно отвечаю "нет, не делают, потому что это плохо предсказуемо или прямо экономически неоправданно", но если у вас нет рамок в виде начальства, почему бы вам свои идеи не опробовать?

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, я же обяснил. если это уже делают то я лучше возьму или куплю готовое. мне нужен результат, готовое и дещевле и надежнее. с одной стороны лобовой путь это брать более мощное железо, оно нынче не дорогое. но сдругой стороны ресурсов всегда не хватает. сейчас наметился комплекс мер которые могут ускорить в несколько раз. это существенно. кстати когда сделаем и статейку на какой нибудь буржуйкий ресурс напишем. они оценят, там деньги считать умеют

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, как и в случае классической проблемы X-Y, маловероятно, что вы получите адекватные ответы до тех пор, пока не расскажите о решаемой задаче.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, я хочу заметить что очень хорошо понимаю что и зачем делаю. иесть неплохие полезные ответы. например по вопросы о полиномах мне подсказали конкретную пеализацию, не придется искать самому. са сработает это точно, хотя бы на конечном этапе оптимизации.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, вот этого я понять не могую вопрос задан точно. и первый ответ говоримт о том что все понятно. там было замечание что точности не хватит. но гугл делает 8 разрядов, значит сочли достаточным. если я напишу что это работа с биржевыми данными разве будет понятнее?

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, даже в самом ответе уважаемый freeExec недоумевает, зачем оно такое нужно. Фактически, он вам ответил вопросом на вопрос - что "CUDA дескать поддерживает только флаты и даблы, нафига вам сдалось делать 8 разрядов?"

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, я же пишу- быстрее

Написано более трёх лет назад
Армянское Радио @gbg

Евгений Лернер, это догадка или у вас есть результаты сравнительных тестов? Вероятнее, реальный ответ такой - в некоторых задачах быстрее, в некоторых - медленнее. Потому что мы скорее всего попадем в страну невыровнянных данных - и привет.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Армянское Радио, вообще нейрон это несколько умножений и сложений. снижений разрядности позволяет делать несколько сложений и умножений в одном слове. те выигрыш в скорости будет ДЛЯ ВСЕХ ЗАДАЧ. другой вопрос как это повлияет на точность. если точности окажется недостаточным то можно доучивать сеть с большей разрядностью. гугл выбрал 8 разрядов для своего тензорного процесора, значит они считают такую разрядность наиболее востребованной

Написано более трёх лет назад
freeExec @freeExec

Евгений Лернер,
позволяет делать несколько сложений и умножений в одном слове

Можете продемонстрировать как это?

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

freeExec, когда сделаем покажу. умножения ускоряются только для ступенчатой фукции активации, где выход нейрона 0 или 1. сложения для любой функции

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

10 комментариев

Евгений Лернер @ehevnlem Автор вопроса

супер. здорово можно ускорить. даже с cuda упакрвывать 8 разрядные числа в слово. даже уменьшение памяти даст эффект

Написано более трёх лет назад
Александр Скуснов @AlexSku

Только это я вычитал в DirectX12 (Франк Луна), примеров для нейронных сетей у меня нет (я сам на C++ даже и не программирую, хотя пытался изучить).

Написано более трёх лет назад
Александр Скуснов @AlexSku

Ещё есть матрицы XMMATRIX (это 4 вектора), а для хранения используются структуры типа XMFLOAT. Для преобразования используются функции типа load и store.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Александр Скуснов, вообще я подумал что это врядли поможет. если процессор физически имеет 32 разряда то ичего не поделаешь, производительность не повысишь. надо снижать разрядность. в 32 разряда можно сделать два числа по 16 и внутри них числа 8 разрядов. можно спокойно складывать и умножать, переполнения не будет. уже в 2 раза быстрее. а еще хотелось бы разобраться с тензорными ядрами gpu. вы не в курсе7

Написано более трёх лет назад
Александр Скуснов @AlexSku

Нет, обработка идёт одной командой (сразу четыре 32-битных float) как на x86, так и на х64 платформах. Главное, чтобы была поддержка SSE2-набора команд.
Работа с GPU зависит от библиотеки. Можно использовать C++ (DirectX), можно Matlab (он использует nVidia). У самой nVidia несколько библиотек. Ну и всякие прочие для машинного обучения, включая Питон.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Александр Скуснов, с программной точки зрения это обработка 128 разрядного слова. но физически это обединение 4 х 32 разрядных процессоров иди 4 такта одного процнссора. выирыша в общей производительности нет

Написано более трёх лет назад
Александр Скуснов @AlexSku

Физически это 128-битные регистры внутри процессора, так что ускорение есть.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Александр Скуснов, надо разобраться. регистры 128 но арифметическое устройство 32. регистры очень быстрые так что ускорение может быть за счет обращения к памяти. вообще больше тормозит память чем процессор. снижение разрядости снижает память, это есть хорошо

Написано более трёх лет назад
Александр Скуснов @AlexSku

Обычно это тестируют. Сравнивают два варианта. Пишут простую формулу и прогоняют в цикле 10^5 - 10^6 раз.

Написано более трёх лет назад
Евгений Лернер @ehevnlem Автор вопроса

Александр Скуснов, конечно.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 89 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 84 просмотра
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 169 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 290 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 67 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 229 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 174 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2021-10-28 17:32:10

Библиотека от NVIDIA поддерживает только float(32) и double(64).
Можно конечно велосипедить на байтах, но зачем, точность ведь никакущая?

Answer 2 · 2021-11-09 19:01:14

пот первое же нагугленное исследование использования 8-битных и 16-битных весов на nvidia gpu

5 Conclusions
We have demonstrated DNN training with 8-bit floating point numbers (F P 8) that achieves 2 − 4×
speedup without compromise in accuracy. The key insight is that reduced-precision additions (used
in partial product accumulations and weight updates) can result in swamping errors causing accuracy
degradation during training. To minimize this error, we propose two new techniques, chunk-based
accumulation and floating point stochastic rounding, that enable a reduction of bit-precision for
additions down to 16 bits – as well as implement them in hardware. Across a wide spectrum of
popular DNN benchmarks and datasets, this mixed precision F P 8 training technique achieves the
same accuracy levels as the F P 32 baseline. Future work aims to further optimize data formats and
computations in order to increase margins as well as study additional benchmarks and datasets.

еще есть огромные нейронные сети, требующие неадекватно большие объемы оперативной памяти, что очень дорого, когда речь идет о нейроннх сетях
Например, те же проекты OpenAI, напомню чтобы запустить тот сберовский ruDALL-e понадобится видеокарта больше 6Gb RAM (можно и с таким но потребуются телодвижения и сильно больше времени), если я верно понял тут используются 16-битные веса, а если переделать на 8-битные, требования к памяти можно еще сильнее понизить.

есть еще разработки по использованию 1битных весов (ума не приложу как это работает), гугл выдает кучу статей

Answer 3 · 2021-10-28 20:55:11

Вообще-то GPU как раз обрабатывает 4 32-битных (float) чисел за один раз (специальный 128-битный формат при установке спец. флага).
typedef __m128 XMVECTOR
При передаче через параметры функции используются FXMVECTOR, GXMVECTOR, HXMVERCTOR и CXMVECTOR, а сама функция должна иметь тип вызова XM_CALLCONV.

Используют ли в нейронных сетях вычисления с пониженной разрядностью?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт