Задать вопрос
@anoneko

Как генерировать описания картинок на основе их эмбеддингов (CLIP feature vector)?

Есть ли методы генерации подписей, принимающие на вход не картинку, а эмбеддинг (представление нейросети об изображении в виде вектора чисел, например, такое выдаёт CLIP)? Нужен способ усреднять изображения перед отправкой на распознавание (feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких).

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.
  • Вопрос задан
  • 69 просмотров
Подписаться 2 Сложный 1 комментарий
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы