@ermak148

Как преобразовать эмбеддинг текста в понятный сверточным слоям?

(юзаю pytorch, но возможно это и не важно)
Уже почти пол года я пытаюсь найти способ создать текстовый эмбеддинг фиксированной длины. Совершенно случайно, наткнувшись на статью про архитектуры kandinsky и dall-e я нашел для себя RoBERTa. С помощью этой сети я смог получить эмбеддинг из любого текста с размерностью [1, 1024]. Конечно, идея может показаться тупой, но я запланировал сделать свою архитектуру для генерации картинок. По идее, после роберты должен стоять UNet, а он, как известно, работает на сверточных слоях. Как мне правильно поменять эмбеддинги, что бы юнет их спокойно кушал и генерировал мне хорошие картинки. Менять размер на [1, 32, 32] и увеличивать размер с TransposeConv2d я не стал (как мне кажется по очевидным причинам)
  • Вопрос задан
  • 76 просмотров
Пригласить эксперта
Ответы на вопрос 1
Vindicar
@Vindicar
RTFM!
Свёрточные слои работают только с изображениями (ну или с картами особенностей, что частный случай изборажений). Они ищут локальные взаимосвязи между соседними элементами изображения.

Эмбеддинг изображением не является, в нём нет локальных вазимосвязей между элементами - он имеет смысл только при рассмотрении всех элементов эмбеддинга.

Таким образом, пытаться скормить эмбеддинг напрямую в свёрточный слой довольно-таки бессмысленно.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы