Как генерировать усреднённые описания ко всему датасету картинок?

Question

Дмитрий @Sneedmanc

Как генерировать усреднённые описания ко всему датасету картинок?

Есть ли методы генерации подписей, работающие сразу с пачкой изображений, но описывающие не каждую картинку отдельно, а весь набор одним предложением? Нужен способ усреднять либо изображения перед отправкой на распознавание (я так полагаю, feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких), либо усреднять уже тексты, полученные по каждой картинке. Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.

Вопрос задан более года назад
102 просмотра

6 комментариев

Подписаться 3 Средний 6 комментариев

rPman @rPman

а если работать только с текстовыми описаниями, полученными для каждого изображения? формально они содержат исчерпывающую информацию (в реальности конечно нет, но не думаю что вам важно к примеру цветовая схема изображения, стилистика и т.п. ее вытягивать другими методами нужно)

с текстами... скорми их универсальной instruction llm-ке, ну а если у тебя достаточно большой объем обучающих, то дообучи completion вариант, тем более 8b llama для таких задач можно на паре 12gb-16gb видяхах дообучить (правда долго)

Написано более года назад
Дмитрий @Sneedmanc Автор вопроса

rPman, я бы все же предпочёл обработки проводить без таких потерь, как смена домена. Одну и ту же картинку можно описать очень по-разному.
Неужели нет image2text моделей, обученных на эмбеддингах/feature vector-ах? На них ведь обучают модели, видел, например, оценщик эстетической привлекательности картинки, принимающий как раз этот 768-размерный вектор от клипа.
Столько видеокарт для обучения у меня нет, чтобы проверить возможность реализации caption-модели на основе клипа.

Написано более года назад
rPman @rPman

обучить СВОЮ модель очень дорого

без таких потерь, как смена домена

Представь как ты сам будешь делать обучающую выборку для тюнинга модели.
Ты наверняка же начнешь с того, что возьмешь существующие clip модели и их тексты, дополнишь какой то информацией (вот это сложно)... начни с того что бы собрать информацию о том чем тебе существующие решения не устраивают.

само обучение не так страшно, арендовать на vast.ai будет дешево, тем более это не llm-ка, а мизерные clip модели, на сколько я помню их на 8гб тюнят (но это peft 8-битный), 16-гб видеокарта сейчас стоит 50т.р. (nvidia 4060ti тормозная для геймеров но самая дешевая по стоимости vram)

Написано более года назад
d'Ivan @2ord

Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.
В обоих случаях будет операция с потерями.

Написано более года назад
Дмитрий @Sneedmanc Автор вопроса

Everything_is_not_so_bad, текстом можно описать картинку как угодно, а перевод в эмбеддинг однозначный. Кроме того, текстовое представление все равно в эмбеддинг переводится для условного чатгпт при вводе, двойные потери.

Написано более года назад
Дмитрий @Sneedmanc Автор вопроса

Да почему вам так сложно дать ответ на простой вопрос? Я шестой раз уже задаю его на stackexchange и меня либо игнорируют, либо закрывают без каких-либо советов. Я проделал исследования, написал прототип решения, что вам еще-то нужно?

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Машинное обучение

10 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 185 просмотров
1

ответ
Искусственный интеллект

Простой
Как сделать синхронный перевод с английского на русский, локально?
- 3 подписчика
- 06 дек.
- 273 просмотра
1

ответ
Искусственный интеллект

Простой
Сравнение стилей двух разных текстов: один или разные люди их писали или вообще ИИ?
- 2 подписчика
- 05 дек.
- 179 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 427 просмотров
3

ответа
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 547 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 264 просмотра
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 367 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 781 просмотр
5

ответов
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 2 подписчика
- 01 окт.
- 778 просмотров
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 109 просмотров
0

ответов
Показать ещё Загружается…

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Системный аналитик

ITK academy • Казань

от 75 000 до 130 000 ₽

Junior Go Developer

ITK academy • Нижний Новгород

от 75 000 до 120 000 ₽

а если работать только с текстовыми описаниями, полученными для каждого изображения? формально они содержат исчерпывающую информацию (в реальности конечно нет, но не думаю что вам важно к примеру цветовая схема изображения, стилистика и т.п. ее вытягивать другими методами нужно)

с текстами... скорми их универсальной instruction llm-ке, ну а если у тебя достаточно большой объем обучающих, то дообучи completion вариант, тем более 8b llama для таких задач можно на паре 12gb-16gb видяхах дообучить (правда долго)
rPman, я бы все же предпочёл обработки проводить без таких потерь, как смена домена. Одну и ту же картинку можно описать очень по-разному.
Неужели нет image2text моделей, обученных на эмбеддингах/feature vector-ах? На них ведь обучают модели, видел, например, оценщик эстетической привлекательности картинки, принимающий как раз этот 768-размерный вектор от клипа.
Столько видеокарт для обучения у меня нет, чтобы проверить возможность реализации caption-модели на основе клипа.
обучить СВОЮ модель очень дорого

без таких потерь, как смена домена

Представь как ты сам будешь делать обучающую выборку для тюнинга модели.
Ты наверняка же начнешь с того, что возьмешь существующие clip модели и их тексты, дополнишь какой то информацией (вот это сложно)... начни с того что бы собрать информацию о том чем тебе существующие решения не устраивают.

само обучение не так страшно, арендовать на vast.ai будет дешево, тем более это не llm-ка, а мизерные clip модели, на сколько я помню их на 8гб тюнят (но это peft 8-битный), 16-гб видеокарта сейчас стоит 50т.р. (nvidia 4060ti тормозная для геймеров но самая дешевая по стоимости vram)
Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.
В обоих случаях будет операция с потерями.
Everything_is_not_so_bad, текстом можно описать картинку как угодно, а перевод в эмбеддинг однозначный. Кроме того, текстовое представление все равно в эмбеддинг переводится для условного чатгпт при вводе, двойные потери.
Да почему вам так сложно дать ответ на простой вопрос? Я шестой раз уже задаю его на stackexchange и меня либо игнорируют, либо закрывают без каких-либо советов. Я проделал исследования, написал прототип решения, что вам еще-то нужно?

Как генерировать усреднённые описания ко всему датасету картинок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт