Задать вопрос

anoneko @anoneko

машинное-обучение

Как генерировать общее описание ко всему датасету изображений?

Есть ли методы генерации подписей, работающие сразу с пачкой изображений, но описывающие не каждую картинку отдельно, а весь набор одним предложением? Нужен способ усреднять либо изображения перед отправкой на распознавание (я так полагаю, feature vector, который, например, выдаёт CLIP, можно обрабатывать математически, в том числе брать среднее из нескольких), либо усреднять уже тексты, полученные по каждой картинке. Но первый вариант мне видится более логичным, всё же перевод в текст это операция с потерями.

Зачем? При подготовке датасетов для обучения моделей Stable Diffusion удобнее проверять результаты на одном промпте, описывающем тематику набора наиболее точно, чем перебирать все подписи к картинкам. Кроме того, подписи можно "инвертировать", проверяя, как обученная модель ведёт себя на нехарактерных для неё запросах.

Что я уже сделал: доработал существующий CLIP+BLIP генератор описаний, чтобы он брал среднее. Однако BLIP может лишь подписывать картинки индивидуально, так что моя цель достигнута там только частично - выбором с помощью CLIP из подписей, созданных BLIP-ом, которая ближе всего к общему набору.

нужны модели, обученные на векторах клип

Вопрос задан 3 часа назад
9 просмотров

Комментировать

Подписаться 1 Сложный Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Искусственный интеллект

Сложный
Как установить Claude desktop app на Windows через прокси?
- 2 подписчика
- 10 нояб.
- 35 просмотров
2

ответа
Искусственный интеллект

+2 ещё

Простой
Как исправить ошибку, возникающую при загрузке модели в rust_bert без файла vocab.txt?
- 1 подписчик
- 09 нояб.
- 25 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Как генерировать усреднённые описания ко всему датасету картинок?
- 3 подписчика
- 07 нояб.
- 61 просмотр
0

ответов
Python

+1 ещё

Простой
VitHybrid не может добавить позиционные эмбеддинги. Что делать?
- 1 подписчик
- 07 нояб.
- 51 просмотр
1

ответ
Видео

+1 ещё

Простой
Лучшее бесплатное ии решение для улучшения качества видео под linux?
- 5 подписчиков
- 02 нояб.
- 1678 просмотров
1

ответ
Искусственный интеллект

Простой
Как научиться делать ИИ?
- 1 подписчик
- 01 нояб.
- 147 просмотров
2

ответа
Telegram

+2 ещё

Средний
Как связать YandexGPT API c другой APi в телеграмм боте?
- 1 подписчик
- 29 окт.
- 123 просмотра
3

ответа
Нейронные сети

+1 ещё

Простой
Как исправить неправильное обновление весов в реализации back propagation?
- 1 подписчик
- 26 окт.
- 49 просмотров
1

ответ
Искусственный интеллект

Простой
Какой ИИ выбрать для чат-бота поддержки в Telegram?
- 1 подписчик
- 25 окт.
- 102 просмотра
1

ответ
Показать ещё Загружается…

Преподаватель по нейросетям

CODDY

от 40 000 ₽

ML-разработчик (Machine Learning)

DevTeam.Space • Москва

от 2 500 до 4 000 $

Аналитик данных

Wanted. • Москва

До 400 000 ₽

Ищу специалиста по настройке рекламы

15 нояб. 2024, в 18:08

10000 руб./за проект

Внести изменения/правки в исходный код ardupilot

15 нояб. 2024, в 17:13

100000 руб./за проект

Починить смену почты в обработке входящих аккаунтов - C# .Net

15 нояб. 2024, в 16:51

10000 руб./за проект