Задать вопрос

Как генерировать усреднённые описания ко всему датасету картинок?

Есть ли методы генерации подписей, работающие сразу с пачкой изображений, но описывающие не каждую картинку отдельно, а весь набор одним предложением? Нужен способ усреднять либо изображения перед отправкой на распознавание (я так полагаю, feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких), либо усреднять уже тексты, полученные по каждой картинке. Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.
  • Вопрос задан
  • 101 просмотр
Подписаться 3 Средний 6 комментариев
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Специалист по Data Science
    13 месяцев
    Далее
  • OTUS
    Machine Learning. Professional
    5 месяцев
    Далее
  • Нетология
    Data Scientist: расширенный курс
    13 месяцев
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы