Есть ли методы генерации подписей, принимающие на вход не картинку, а эмбеддинг (представление нейросети об изображении в виде вектора чисел, например, такое выдаёт CLIP)? Нужен способ усреднять изображения перед отправкой на распознавание (feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких).
Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.
Что я уже сделал:
доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.