Какие посоветуете лучшие доступные LLM, для организации на её базе офисного бота?
Пожелал тут генеральный заиметь свою нейросеть в офисе, для простых задач работы с документами, анализа их (конечно, хотел большего). Я обследовал, тестировал некоторые модели через ollama:
llama3.2:3b
granite4.1:8b
Qwen3.5-Opus:2b
gemma4:e4b
Остальные не буду указывать, там трешовые совсем.
Но некоторые из них без vision и tools, показывают в целом неплохо работу, но не могут распознать файл, или поработать с ним. Явно кто-то уже занимался такой задачей, можете поделиться опытом тестирования может других интересных моделей? Или может уже какую-то внедрили?
Не факт, что это будет агент, может быть просто в open web ui будет работать да и всё.
Тестил на таком железе, пока для старта смог получить только это:
i7 8700k + ssd nvme + 32 озу + rtx 4070 на ubuntu desktop.
Тестирую всё, что выходит на hugging face до 9b, сейчас для русского языка топ это Qwen 3.5, в вашем случае это 9b, либо 4b. Каких-то альтернатив сейчас особо нет, если только не взять видеопамяти побольше - тогда идеальным вариантом было бы поставить Gemma 4 26b A4b, либо тот же Qwen 3.6 35b A3b.
Спасибо, да,ставил Gemma 4 26b A4b, либо тот же Qwen 3.6 35b A3b. мне понравилось как они себя показали,но для такого железа - дико медленно. А в openweb ui можно всё подкинуть? и с hf и с lm модели? чёто совсем забыл про них.
Да, в OpenWebUI можно например через ollama или vLLM подключить. В ollama легко ставятся модели с HF, но нужно выбирать именно в формате GGUF, а для vLLM лучше всего формат AWQ. В карточке модели есть кнопка "Use this model", там выбираем ollama или vLLM и появляются команды, чтобы всё быстро развернуть.
Советую ещё у ChatGPT поспрашивать насчет конфигурации vLLM при запуске, там можно очень неплохо оптимизировать.
Я игрался с qwen3.6-35b-a3b, скорость примерно такая же как у тех что у вас в списке, требования к ram/vram порядка 32гб, на процессоре примерно в 10 раз медленнее чем на двух nvidia 4060ti 16гб (на них порядка 20ток/сек).
Мощности модели хватает даже для решения простых задач на qwen coder agent (проблема когда контекст вырастает до 100к токенов, начинает тупить, где то решаемо но полной автономии достигнуть не просто).
Модель прекрасно умеет vision, отлично следует инструкциям и не глючит с итоговыми форматами, по тестам можно как большие версии предыдущих.
P s. Современные модели не могут обрабатывать данные напрямую, но могут помочь написать код для этого
на процессоре примерно в 10 раз медленнее чем на двух nvidia 4060ti 16гб (на них порядка 20ток/сек)
Вы какое квантование используете?
У меня Q6K на одной RTX5060TI-16GB с 128K контекстом (на полную его не использовал, так что на счет "начинает тупить" ничего сказать не могу, обычно до 60-80к хватает) и Vision выдает скорость около 30t/s на генерацию и 400-800t/s на чтение контекста.
Если у вас условия похожи, то надо вам с настройками поиграться.
NekoGami, конечно, с маленьким контекстом у меня и 66t/s, а вот когда агент работает с 70к..150к контекстом, там падает до примерно 20 t/s
p.s. как вы на одной видеокарте запускаете 35b? у 4b квантованной (я ею пользуюсь) минимальные требования 20гб vram, или вы экспериментируете с частичной выгрузкой и фичами moe? но тогда скорость input падает сильно
ncmoe выгружает 31 экспертный слой в ОЗУ, при этом все обязательные слои плюс оставшиеся экспертные идут в GPU.
Скорость генерации при небольшом контексте 30t/s, скорость чтения 400-800t/s (без понятия почему разброс такой большой, чаще всего не меньше 600t/s).
Средний контекст (60к): генерация 15t/s, чтение 850t/s
Большой контекст (120к): генерация 9t/s, чтение 800t/s.
Так же ради интереса попробовал Q4.
При 128к контекста пришлось выгрузить в ОЗУ 23 слоя, а не 31 как с Q6.
Протестировал маленький и средний контекст.
Результаты соответственно:
Средний контекст (60к): генерация 18t/s, чтение 1000t/s
И это со включенным Vision (BF16), без него будет быстрее, так как больше слоев на GPU поместятся. Или можно Vision в ОЗУ засунуть, тогда сам Vision будет работать медленно, но если редко нужен, то нормально.
Как по мне для одной видеокарты очень достойный результат.
У меня была достаточно специфичная задача - найти хорошую локальную модель для roleplay при очень ограниченном железе. Так вот, ни одно dense модель до 12B не дала примлемого результата. Тем более MoE - там вообще крах. Самый хороший результат я получил от Mistral-based моделей. Qwen тоже неплохо. Но повторюсь - roleplay это больше про работу с языковыми конструкциями (для чего LLM в общем-то и предназначена), как это всё работает с конкретными инструментами... хз
Можно посмотреть на модели побольше.
Типа Qwen3.6-35B-A3B.
Напрямую в llama.cpp можно добиться скорости работы на вашем оборудовании более 20т/с, единственное на счет ОЗУ не уверен. Как бы хватает, но у меня по факту чуть за 40ГБ занято когда запущена, однако еще в фоне куча всего крутится, так что может быть если чисто под эту задачу то 32ГБ будет нормально.
Поддерживает Vision (причем очень хорошо), Tools, Reasoning (можно включить/выключить), русский язык.
Но нужно использовать квантованную версию (Q6 примерно) с настройкой через llama.cpp. Я крайне сомневаюсь что автоматические параметры которые задает ollama смогут выдать приемлемый уровень производительности на вашем оборудовании.
P.S.
Ну 20т/с это конечно не прямо быстро. Но зато качество действительно на высоте, вряд ли что то лучшее на все еще примерной скорости на вашем оборудовании возможно.
По крайней мере стоит попробовать, а потом уже решать нужна ли больше скорость ценой потери качества или так нормально.