Для чего нужно маскирование токенов в Transformer Decoder?

Question

qoqo @qoqo

Для чего нужно маскирование токенов в Transformer Decoder?

Доброго времени суток ! В статьях пишут что при реализации механизма внутреннего внимания, используется маскирование , причем говорится это в двух словах,как будто это что то , что легко понять .
В Attention Is All You Need сказано, что это делается для того, чтобы вы не могли видеть генерирующее слово, но я не могу понять, если слова не были сгенерированы, как их можно увидеть?
Например, я подают на вход модели текст "Я пью зеленый " и хочу что бы сеть угадала слово "чай" . Что я должен тут маскировать ?
В след итерации я подам другой текст .

Вопрос задан более двух лет назад
68 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 284 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 135 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 281 просмотр
1

ответ
Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 3 подписчика
- 17 мая
- 1135 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 93 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 106 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 754 просмотра
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 174 просмотра
1

ответ
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2023-05-27 22:30:45

Если я верно понимаю.

Таблица self-attention в общем случае описывает весь контекст, т.е. все окно контекста (квадратная табличка - где размер это количество токенов в окне контекста - максимальной длины сообщения, которое принимает модель на вход, все что больше - отбрасывают)

'Вы' в данном случае - это имеется в виду модель. Сокрытие - это установка в позицию искомых слов -inf, чтобы они никак не влияли на слова в контексте (они же не известны), напоминаю - слова в self-attention влияют друг на друга вне зависимости от положения лево-право

В примере "Я пью зеленый " в таблице self-attention 4-ый и больше токены будут значения -inf

Для чего нужно маскирование токенов в Transformer Decoder?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт