пот первое же
нагугленное исследование использования 8-битных и 16-битных весов на nvidia gpu
5 Conclusions
We have demonstrated DNN training with 8-bit floating point numbers (F P 8) that achieves 2 − 4×
speedup without compromise in accuracy. The key insight is that reduced-precision additions (used
in partial product accumulations and weight updates) can result in swamping errors causing accuracy
degradation during training. To minimize this error, we propose two new techniques, chunk-based
accumulation and floating point stochastic rounding, that enable a reduction of bit-precision for
additions down to 16 bits – as well as implement them in hardware. Across a wide spectrum of
popular DNN benchmarks and datasets, this mixed precision F P 8 training technique achieves the
same accuracy levels as the F P 32 baseline. Future work aims to further optimize data formats and
computations in order to increase margins as well as study additional benchmarks and datasets.
еще есть огромные нейронные сети, требующие неадекватно большие объемы оперативной памяти, что очень дорого, когда речь идет о нейроннх сетях
Например, те же проекты OpenAI, напомню чтобы запустить тот сберовский
ruDALL-e понадобится видеокарта больше 6Gb RAM (можно и с таким но потребуются телодвижения и сильно больше времени), если я верно понял тут используются 16-битные веса, а если переделать на 8-битные, требования к памяти можно еще сильнее понизить.
есть еще разработки по использованию 1битных весов (ума не приложу как это работает),
гугл выдает кучу статей