@Filipp42

Почему у языковых моделей такой маленький размер контекста?

Скажите, почему у LLM такой маленький размер контекста и как его можно увеличить? Есть ли возможность сделать его почти бесконечным?
  • Вопрос задан
  • 118 просмотров
Пригласить эксперта
Ответы на вопрос 2
Есть ли возможность сделать его почти бесконечным?

Если у тебя есть почти бесконечное количество памяти на серверах, а также почти бесконечное количество времени, чтобы такую нейросеть обучить - можно.

У человека, напомню, память тоже не бесконечная.
Ответ написан
Комментировать
@rPman
Требования к оперативной памяти для работы ллм от размера контекста в худшем квадратичная, там матрица со сторонами в размер контекста, на каждом слое, например у llama их 700слоев (есть лайфхаки, уменьшающие это требование для ситуаций, когда можно ограничить расстояние для взаимо зависимых токенов но не на весь текст... Там таблица получается разряженной, много нулей, на этом можно что то оптимизировать

Т.е. увеличивая контекста в 2 раза, увеличиваешь требование к памяти в 4 раза а энергии на обучение ещё в 2 раза больше, т.е.8 раз (там тоже чем больше тем хуже оптимизация)

Напоминаю что объем памяти это капитальные затраты, а на вычисления (энергию) - операционные
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы