Как генерировать усреднённые описания ко всему датасету картинок?

Question

Дмитрий @Sneedmanc

Как генерировать усреднённые описания ко всему датасету картинок?

Есть ли методы генерации подписей, работающие сразу с пачкой изображений, но описывающие не каждую картинку отдельно, а весь набор одним предложением? Нужен способ усреднять либо изображения перед отправкой на распознавание (я так полагаю, feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких), либо усреднять уже тексты, полученные по каждой картинке. Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.

Вопрос задан 07 нояб. 2024
98 просмотров

6 комментариев

Подписаться 3 Средний 6 комментариев

rPman @rPman

а если работать только с текстовыми описаниями, полученными для каждого изображения? формально они содержат исчерпывающую информацию (в реальности конечно нет, но не думаю что вам важно к примеру цветовая схема изображения, стилистика и т.п. ее вытягивать другими методами нужно)

с текстами... скорми их универсальной instruction llm-ке, ну а если у тебя достаточно большой объем обучающих, то дообучи completion вариант, тем более 8b llama для таких задач можно на паре 12gb-16gb видяхах дообучить (правда долго)

Написано 07 нояб. 2024
Дмитрий @Sneedmanc Автор вопроса

rPman, я бы все же предпочёл обработки проводить без таких потерь, как смена домена. Одну и ту же картинку можно описать очень по-разному.
Неужели нет image2text моделей, обученных на эмбеддингах/feature vector-ах? На них ведь обучают модели, видел, например, оценщик эстетической привлекательности картинки, принимающий как раз этот 768-размерный вектор от клипа.
Столько видеокарт для обучения у меня нет, чтобы проверить возможность реализации caption-модели на основе клипа.

Написано 09 нояб. 2024
rPman @rPman

обучить СВОЮ модель очень дорого

без таких потерь, как смена домена

Представь как ты сам будешь делать обучающую выборку для тюнинга модели.
Ты наверняка же начнешь с того, что возьмешь существующие clip модели и их тексты, дополнишь какой то информацией (вот это сложно)... начни с того что бы собрать информацию о том чем тебе существующие решения не устраивают.

само обучение не так страшно, арендовать на vast.ai будет дешево, тем более это не llm-ка, а мизерные clip модели, на сколько я помню их на 8гб тюнят (но это peft 8-битный), 16-гб видеокарта сейчас стоит 50т.р. (nvidia 4060ti тормозная для геймеров но самая дешевая по стоимости vram)

Написано 09 нояб. 2024
d'Ivan @2ord

Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.
В обоих случаях будет операция с потерями.

Написано 09 нояб. 2024
Дмитрий @Sneedmanc Автор вопроса

Everything_is_not_so_bad, текстом можно описать картинку как угодно, а перевод в эмбеддинг однозначный. Кроме того, текстовое представление все равно в эмбеддинг переводится для условного чатгпт при вводе, двойные потери.

Написано 11 нояб. 2024
Дмитрий @Sneedmanc Автор вопроса

Да почему вам так сложно дать ответ на простой вопрос? Я шестой раз уже задаю его на stackexchange и меня либо игнорируют, либо закрывают без каких-либо советов. Я проделал исследования, написал прототип решения, что вам еще-то нужно?

Написано 15 нояб. 2024

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видео

+1 ещё

Простой
Сервис для перевода видео с Русского на Грузинский?
- 1 подписчик
- 3 часа назад
- 30 просмотров
0

ответов
Видео

+1 ещё

Простой
Нейросеть для перевода видео?
- 2 подписчика
- 07 авг.
- 294 просмотра
2

ответа
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 246 просмотров
3

ответа
Дизайн

+4 ещё

Простой
Чем генерировать текстуры материалов?
- 1 подписчик
- 02 авг.
- 140 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 221 просмотр
3

ответа
Искусственный интеллект

Простой
Необходим инструмент либо схема (nocode) для поиска решений по доработке химических рецептов продуктов (не пищевых). Необходим пилот, кто сталкивался?
- 1 подписчик
- 14 июл.
- 106 просмотров
0

ответов
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 160 просмотров
2

ответа
Python

+1 ещё

Простой
Как тренировать Yolo, размер датасета, итоговый loss?
- 2 подписчика
- 13 июл.
- 1002 просмотра
2

ответа
Языки программирования

+1 ещё

Средний
Насколько TypeScript, C# и C++ способны заменить Python при разработке искусственного интелекта?
- 1 подписчик
- 12 июл.
- 194 просмотра
3

ответа
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

а если работать только с текстовыми описаниями, полученными для каждого изображения? формально они содержат исчерпывающую информацию (в реальности конечно нет, но не думаю что вам важно к примеру цветовая схема изображения, стилистика и т.п. ее вытягивать другими методами нужно)

с текстами... скорми их универсальной instruction llm-ке, ну а если у тебя достаточно большой объем обучающих, то дообучи completion вариант, тем более 8b llama для таких задач можно на паре 12gb-16gb видяхах дообучить (правда долго)
rPman, я бы все же предпочёл обработки проводить без таких потерь, как смена домена. Одну и ту же картинку можно описать очень по-разному.
Неужели нет image2text моделей, обученных на эмбеддингах/feature vector-ах? На них ведь обучают модели, видел, например, оценщик эстетической привлекательности картинки, принимающий как раз этот 768-размерный вектор от клипа.
Столько видеокарт для обучения у меня нет, чтобы проверить возможность реализации caption-модели на основе клипа.
обучить СВОЮ модель очень дорого

без таких потерь, как смена домена

Представь как ты сам будешь делать обучающую выборку для тюнинга модели.
Ты наверняка же начнешь с того, что возьмешь существующие clip модели и их тексты, дополнишь какой то информацией (вот это сложно)... начни с того что бы собрать информацию о том чем тебе существующие решения не устраивают.

само обучение не так страшно, арендовать на vast.ai будет дешево, тем более это не llm-ка, а мизерные clip модели, на сколько я помню их на 8гб тюнят (но это peft 8-битный), 16-гб видеокарта сейчас стоит 50т.р. (nvidia 4060ti тормозная для геймеров но самая дешевая по стоимости vram)
Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.
В обоих случаях будет операция с потерями.
Everything_is_not_so_bad, текстом можно описать картинку как угодно, а перевод в эмбеддинг однозначный. Кроме того, текстовое представление все равно в эмбеддинг переводится для условного чатгпт при вводе, двойные потери.
Да почему вам так сложно дать ответ на простой вопрос? Я шестой раз уже задаю его на stackexchange и меня либо игнорируют, либо закрывают без каких-либо советов. Я проделал исследования, написал прототип решения, что вам еще-то нужно?

Как генерировать усреднённые описания ко всему датасету картинок?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт