Как генерировать усреднённые описания ко всему датасету картинок?

Есть ли методы генерации подписей, работающие сразу с пачкой изображений, но описывающие не каждую картинку отдельно, а весь набор одним предложением? Нужен способ усреднять либо изображения перед отправкой на распознавание (я так полагаю, feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких), либо усреднять уже тексты, полученные по каждой картинке. Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.
  • Вопрос задан
  • 72 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы