Какие есть простые легковесные LLM для локального использования?

Question

Никита Антоньев @Musikia

Сити фермер

Какие есть простые легковесные LLM для локального использования?

Возникла идея сделать локального LLM агента, который бы исполнял мои функции python смотря на их описание. Есть ли какие-то легковесные языковые модели, которые бы справлялись с небольшими задачами?

Вопрос задан 14 окт.
756 просмотров

4 комментария

Подписаться 3 Простой 4 комментария

Refguser @Refguser

Легковестность - понятие относительно. Но чем легковесней- тем хуже.

Написано 14 окт.
shurshur @shurshur

Сколько-нибудь приличная модель всё равно требует видеокарты. И чем больше в видеокарте памяти, тем лучше и тем более широким будет выбор.

Написано 14 окт.
Маркус Кейн @irishmann

В гугле забанили?

Написано 14 окт.
Никита Антоньев @Musikia Автор вопроса

Маркус Кейн, а ты что здесь сидишь? Гугл забанили?

Написано 14 окт.

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 150 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 107 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 93 просмотра
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 349 просмотров
3

ответа
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 93 просмотра
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 237 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 275 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 172 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 444 просмотра
4

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Легковестность - понятие относительно. Но чем легковесней- тем хуже.
Сколько-нибудь приличная модель всё равно требует видеокарты. И чем больше в видеокарте памяти, тем лучше и тем более широким будет выбор.
Маркус Кейн, а ты что здесь сидишь? Гугл забанили?

Answer 1 · 2025-10-14 17:35:47

Настоятельно рекомендую не ждать ответа от сообщества и не гадать, а установить что то типа lmstudio или ollama и используя их интерфейс по перебирать модели, подходящие под ваши требования на своих задачах (можно заранее собрать тестовый набор и попросить ИИ написать код для его проверки автоматически), эти утилиты поднимают llama.cpp сервер, c совместимым с openai api.

Легковестными и терпимыми кодогенераторами являются либо специализированные модели (в название code) либо что-нибудь от топов - google gemma, microsoft phi4, openai oss (лично не пробовал но говорят что даже 20b терпимая, и почти наверняка ее можно использовать как ускоритель для 200b) и может быть qwen3 30b a3b.

p.s. готовь 64гб ram минимум (лучше 128гб в идеале 196гб, тогда можно потрогать топовые типа deepseek), мало хранить веса, нужно еще контекстное окно обслуживать. Есть алгоритмы, позволяющие неплохо ускорять MoE модели, не влезающие в gpu, только малым их количеством (например на 196гб ram + 24gb vram запускают deepseek с несколько токенов в секунду).

денег, которые ты потратишь на апгрейд железа хватит на месяцы и годы на использование облачных api, это при использовании топовых моделей, а если брать дешевые слабые (сравнимые с opensource) то и подавно.

И главное, сносное качество открытые модели дают в режиме рассуждения, которое кратно увеличивает время до получения ответа (десяток минут), стоит ли оно того?

Answer 2 · 2025-10-14 17:26:57

Zerg89 @Zerg89

git ollama
И навыбор много llm моделей под нее

Ответ написан 14 окт.

Комментировать

Answer 3 · 2025-10-31 23:38:32

В LM studio много разных моделей, можно также подрубать к пайтону. есть для картинок распознования и текстовые но не все задачи потянут для некоторых задач(причем достаточно бытовых потипу по определенному сценараию написать тект обзора для tts) это все бесполезная помойка которую обучать и обучать и некак не обойти придеться использовать api ПЛАТНЫХ поделей.

Answer 4 · 2025-11-17 21:48:53

О, отличная тема для локального хакинга! Под твой кейс — питоновский агент для простых тасок — есть несколько адекватных легковесок.

Смотри в сторону CodeLlama 7B (или его инструктурную версию) — она заточена именно под код и на среднем железе потянет. Ещё есть Phi-3 mini от Microsoft — вообще малютка, но очень шустрая и для базовых задач хватит за глаза. DeepSeek-Coder тоже хвалят за адекватность в код-генерации.

Главный плюс локальщины — полная приватность и ноль лагов. Минус — до GPT-4 по качеству не дотянут, но для автоматизации рутины и описания функций — вполне.

Чтобы не качать всё подряд, залетай на Neuromanual.ru — там есть сравнения моделей по перфомансу на разных бенчмарках, включая код-генерацию. Увидишь, какая именно по характеристикам тебе зайдет.

Какие есть простые легковесные LLM для локального использования?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт