@qoqo

Для чего нужно маскирование токенов в Transformer Decoder?

Доброго времени суток ! В статьях пишут что при реализации механизма внутреннего внимания, используется маскирование , причем говорится это в двух словах,как будто это что то , что легко понять .
В Attention Is All You Need сказано, что это делается для того, чтобы вы не могли видеть генерирующее слово, но я не могу понять, если слова не были сгенерированы, как их можно увидеть?
Например, я подают на вход модели текст "Я пью зеленый " и хочу что бы сеть угадала слово "чай" . Что я должен тут маскировать ?
В след итерации я подам другой текст .
  • Вопрос задан
  • 54 просмотра
Пригласить эксперта
Ответы на вопрос 1
@rPman
Если я верно понимаю.

Таблица self-attention в общем случае описывает весь контекст, т.е. все окно контекста (квадратная табличка - где размер это количество токенов в окне контекста - максимальной длины сообщения, которое принимает модель на вход, все что больше - отбрасывают)

'Вы' в данном случае - это имеется в виду модель. Сокрытие - это установка в позицию искомых слов -inf, чтобы они никак не влияли на слова в контексте (они же не известны), напоминаю - слова в self-attention влияют друг на друга вне зависимости от положения лево-право

В примере "Я пью зеленый " в таблице self-attention 4-ый и больше токены будут значения -inf
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы