Задать вопрос
k0valex
@k0valex

Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?

Пожелал тут генеральный заиметь свою нейросеть в офисе, для простых задач работы с документами, анализа их (конечно, хотел большего). Я обследовал, тестировал некоторые модели через ollama:
llama3.2:3b
granite4.1:8b
Qwen3.5-Opus:2b
gemma4:e4b
Остальные не буду указывать, там трешовые совсем.
Но некоторые из них без vision и tools, показывают в целом неплохо работу, но не могут распознать файл, или поработать с ним. Явно кто-то уже занимался такой задачей, можете поделиться опытом тестирования может других интересных моделей? Или может уже какую-то внедрили?
Не факт, что это будет агент, может быть просто в open web ui будет работать да и всё.
Тестил на таком железе, пока для старта смог получить только это:
i7 8700k + ssd nvme + 32 озу + rtx 4070 на ubuntu desktop.
  • Вопрос задан
  • 221 просмотр
Подписаться 2 Простой 4 комментария
Помогут разобраться в теме Все курсы
  • Нетология
    1C-программист: расширенный курс
    18 месяцев
    Далее
  • Академия Эдюсон
    Python-разработчик
    9 месяцев
    Далее
  • ProductStar × РБК
    Профессия: Инженер по информационной безопасности
    9 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 5
@Nevergreenin
Тестирую всё, что выходит на hugging face до 9b, сейчас для русского языка топ это Qwen 3.5, в вашем случае это 9b, либо 4b. Каких-то альтернатив сейчас особо нет, если только не взять видеопамяти побольше - тогда идеальным вариантом было бы поставить Gemma 4 26b A4b, либо тот же Qwen 3.6 35b A3b.
Ответ написан
@rPman
Ни одна из указанных не подходит для ваших задач.

Я игрался с qwen3.6-35b-a3b, скорость примерно такая же как у тех что у вас в списке, требования к ram/vram порядка 32гб, на процессоре примерно в 10 раз медленнее чем на двух nvidia 4060ti 16гб (на них порядка 20ток/сек).

Мощности модели хватает даже для решения простых задач на qwen coder agent (проблема когда контекст вырастает до 100к токенов, начинает тупить, где то решаемо но полной автономии достигнуть не просто).

Модель прекрасно умеет vision, отлично следует инструкциям и не глючит с итоговыми форматами, по тестам можно как большие версии предыдущих.

P s. Современные модели не могут обрабатывать данные напрямую, но могут помочь написать код для этого
Ответ написан
opium
@opium
Просто люблю качественно работать
qwen2.5vl:7b — берёшь если нужен vision (документы, таблицы, скрины). В ollama есть, на q4 ~6гб VRAM, в 4070 влезает спокойно.

для tools/агента — qwen3:8b, там function calling нормально работает.

в open webui оба можно поднять и переключаться под задачу
Ответ написан
@66demon666
Сетевой админ, АТС-админ
У меня была достаточно специфичная задача - найти хорошую локальную модель для roleplay при очень ограниченном железе. Так вот, ни одно dense модель до 12B не дала примлемого результата. Тем более MoE - там вообще крах. Самый хороший результат я получил от Mistral-based моделей. Qwen тоже неплохо. Но повторюсь - roleplay это больше про работу с языковыми конструкциями (для чего LLM в общем-то и предназначена), как это всё работает с конкретными инструментами... хз
Ответ написан
@NekoGami
Можно посмотреть на модели побольше.
Типа Qwen3.6-35B-A3B.

Напрямую в llama.cpp можно добиться скорости работы на вашем оборудовании более 20т/с, единственное на счет ОЗУ не уверен. Как бы хватает, но у меня по факту чуть за 40ГБ занято когда запущена, однако еще в фоне куча всего крутится, так что может быть если чисто под эту задачу то 32ГБ будет нормально.
Поддерживает Vision (причем очень хорошо), Tools, Reasoning (можно включить/выключить), русский язык.

Но нужно использовать квантованную версию (Q6 примерно) с настройкой через llama.cpp. Я крайне сомневаюсь что автоматические параметры которые задает ollama смогут выдать приемлемый уровень производительности на вашем оборудовании.

P.S.
Ну 20т/с это конечно не прямо быстро. Но зато качество действительно на высоте, вряд ли что то лучшее на все еще примерной скорости на вашем оборудовании возможно.
По крайней мере стоит попробовать, а потом уже решать нужна ли больше скорость ценой потери качества или так нормально.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы