Как залить картинку в LM Studio программно?

Question

IA-NE-ROBOT @IA-NE-ROBOT

C#
LLVM

Как залить картинку в LM Studio программно?

Привет, в Lm studio пользуюсь 2 моделями со зрением - LLava и Gemma. Обе работают корректно.
Далее, делаю json запрос на сервер Lm studio - текст проходит без проблем, обе модельки отвечают корректно.
Далее, в запрос вставлюя картинку, перекодированную в base64 - ответы бредовые. Пробую текст+ссылку на инет картинку - ответы бредовые, абсолютно не то. Точнее моделька отвечает, что давай рассмотрим картинку, повторяет ссылку, а описание гальюнское. Та же картинка в чатике распознается на ура.

Запросы делал на шарпе, потом попробовал на питухоне пример из доков студии - там вообще ошибка, модельки не отвечают.
Как победить?

Вопрос задан 24 мар.
274 просмотра

5 комментариев

Подписаться 1 Средний 5 комментариев

rPman @rPman

где код то? какой запрос делаешь

Написано 24 мар.
IA-NE-ROBOT @IA-NE-ROBOT Автор вопроса

var jsonObject = new
{

model = "local-model",
messages = "[{\"role\":\"user\", \"content\":\"describe image: data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEoAAABVCAYAAADuUHI/AAAAAXNSR0IArs4c6QAAAARnQU1BAAAABJRU5ErkJggg==\"}]"

};

Вот кусок,сам base64 я обрезал для наглядности. Повторюсь, что для чисто текстового промта все работало. Может длинный base64 при запросе где-то обрезается на лету и модельки бредят?

Написано 24 мар.
IA-NE-ROBOT @IA-NE-ROBOT Автор вопроса

С питоном разобрался, не работало prediction = model.respond(chat). Можно пока сляпать костыль из шарпа и питона.

Написано 24 мар.
rPman @rPman

там для изображения должен быть отдельный элемент json, а у тебя в примере base64 прямо как текст запроса идет, естественно модель его не понимает

но я погуглил, кажется openai api у llama.cpp сервера не поддерживает его, я лично работал напрямую из командной строки, запуская llama-qwen2vl-cli (использовал qwen2vl), изображение в этом случае подставляется одно на старте контекста

Написано 24 мар.
IA-NE-ROBOT @IA-NE-ROBOT Автор вопроса

rPman, генерю в шарпе питоновый скрипт, запускаю его и читаю ответ. В питоне либа от лмстудио, она с рисунками работает.
Извращение, конечно, но пока так

Написано 24 мар.

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
На сколько практично разделять логику загрузки данных?
- 4 подписчика
- 16 сент.
- 1120 просмотров
2

ответа
Android

+2 ещё

Простой
Проблема с расположением префаба в AR проекте, как мне сделать расположение префаба чётко над маркером?
- 1 подписчик
- 07 сент.
- 116 просмотров
0

ответов
C#

+2 ещё

Средний
Как получить Steamloginsecure имея логин, пароль и рефреш токен?
- 1 подписчик
- 06 сент.
- 78 просмотров
0

ответов
C#

Простой
Мониторинг подключения базовой станции сканеров в программе?
- 2 подписчика
- 05 сент.
- 66 просмотров
0

ответов
C#

+1 ещё

Средний
Как настроить полосу прокрутки, чтобы срабатывала только при наведении на неё?
- 2 подписчика
- 04 сент.
- 189 просмотров
2

ответа
C#

+2 ещё

Простой
Аутентификация Blazor Server, почему AuthorizeView долго получает данные об аутентификации?
- 1 подписчик
- 04 сент.
- 47 просмотров
0

ответов
C#

Простой
Как правильно добавить переменную?
- 2 подписчика
- 01 сент.
- 220 просмотров
2

ответа
C#

+1 ещё

Простой
Zenject зачем добавлять к SceneLoader наследование от ISceneLoader?
- 1 подписчик
- 30 авг.
- 85 просмотров
1

ответ
C#

+1 ещё

Средний
Instance по логике Bootstrap?
- 1 подписчик
- 29 авг.
- 91 просмотр
1

ответ
C#

+1 ещё

Средний
Как правильно оформить логику Bootstrap для Player.cs в Initialize()?
- 1 подписчик
- 29 авг.
- 55 просмотров
1

ответ
Показать ещё Загружается…

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Разработчик Delphi

EuroAuto • Санкт-Петербург

от 200 000 ₽

Заместитель начальника отдела разработки ПО и АСУ

ГК «Турбулентность-ДОН» • Ростов-на-Дону

от 100 000 до 130 000 ₽

var jsonObject = new
{

model = "local-model",
messages = "[{\"role\":\"user\", \"content\":\"describe image: data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEoAAABVCAYAAADuUHI/AAAAAXNSR0IArs4c6QAAAARnQU1BAAAABJRU5ErkJggg==\"}]"

};

Вот кусок,сам base64 я обрезал для наглядности. Повторюсь, что для чисто текстового промта все работало. Может длинный base64 при запросе где-то обрезается на лету и модельки бредят?
С питоном разобрался, не работало prediction = model.respond(chat). Можно пока сляпать костыль из шарпа и питона.
там для изображения должен быть отдельный элемент json, а у тебя в примере base64 прямо как текст запроса идет, естественно модель его не понимает

но я погуглил, кажется openai api у llama.cpp сервера не поддерживает его, я лично работал напрямую из командной строки, запуская llama-qwen2vl-cli (использовал qwen2vl), изображение в этом случае подставляется одно на старте контекста
rPman, генерю в шарпе питоновый скрипт, запускаю его и читаю ответ. В питоне либа от лмстудио, она с рисунками работает.
Извращение, конечно, но пока так

Answer 1 · 2025-03-24 16:31:39

rPman @rPman

LM studio использует llama.cpp, документацию смотреть тут

Ответ написан 24 мар.

Комментировать

Как залить картинку в LM Studio программно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт