Да почему вам так сложно дать ответ на простой вопрос? Я шестой раз уже задаю его на stackexchange и меня либо игнорируют, либо закрывают без каких-либо советов. Я проделал исследования, написал прототип решения, что вам еще-то нужно?
Everything_is_not_so_bad, текстом можно описать картинку как угодно, а перевод в эмбеддинг однозначный. Кроме того, текстовое представление все равно в эмбеддинг переводится для условного чатгпт при вводе, двойные потери.
rPman, я бы все же предпочёл обработки проводить без таких потерь, как смена домена. Одну и ту же картинку можно описать очень по-разному.
Неужели нет image2text моделей, обученных на эмбеддингах/feature vector-ах? На них ведь обучают модели, видел, например, оценщик эстетической привлекательности картинки, принимающий как раз этот 768-размерный вектор от клипа.
Столько видеокарт для обучения у меня нет, чтобы проверить возможность реализации caption-модели на основе клипа.
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.