В чём разница Post-training full integer quantization и dynamic range quantization?
https://www.tensorflow.org/lite/performance/model_...
Судя по таблице, и то и другое одинаково влияет на модель (размер уменьшается в 4 раза и немного уменьшается точность) + веса и активации приводятся к int8 числам, так почему это два разных способа квантования, в чём разница?
Насколько я понял, это разные форматы: динамический - классический float с плавающей точкой только длиной 8 бит, а full integer это тоже float, но с фиксированной точкой (а-ля integer, тоже 8 бит). Область применения - различные микроконтроллеры (для второго случая). Оба варианта - для уменьшения размера памяти для весов.
Александр Скуснов, Может вы можете ответить,
В каких случаях лучше использовать квантование динамического диапазона (с меньшим размером модели, но более длительным inference) и в каких floa16 квантование (больший размер модели, но более быстрый inference)?
К сожалению нет, Тамила, я использую обычную размерность (без квантизации). Мне хватает простых моделей. Тем более, пока я не пользуюсь трансформерами, а применяю RL (обучение с подкреплением), мне оно интереснее.