Задать вопрос
Musikia
@Musikia
Сити фермер

Какие есть простые легковесные LLM для локального использования?

Возникла идея сделать локального LLM агента, который бы исполнял мои функции python смотря на их описание. Есть ли какие-то легковесные языковые модели, которые бы справлялись с небольшими задачами?
  • Вопрос задан
  • 756 просмотров
Подписаться 3 Простой 4 комментария
Помогут разобраться в теме Все курсы
  • Яндекс Практикум
    Python-разработчик
    10 месяцев
    Далее
  • Skillbox
    Python-разработчик
    10 месяцев
    Далее
  • Нетология
    Fullstack-разработчик на Python + нейросети
    20 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 4
@rPman
Настоятельно рекомендую не ждать ответа от сообщества и не гадать, а установить что то типа lmstudio или ollama и используя их интерфейс по перебирать модели, подходящие под ваши требования на своих задачах (можно заранее собрать тестовый набор и попросить ИИ написать код для его проверки автоматически), эти утилиты поднимают llama.cpp сервер, c совместимым с openai api.

Легковестными и терпимыми кодогенераторами являются либо специализированные модели (в название code) либо что-нибудь от топов - google gemma, microsoft phi4, openai oss (лично не пробовал но говорят что даже 20b терпимая, и почти наверняка ее можно использовать как ускоритель для 200b) и может быть qwen3 30b a3b.

p.s. готовь 64гб ram минимум (лучше 128гб в идеале 196гб, тогда можно потрогать топовые типа deepseek), мало хранить веса, нужно еще контекстное окно обслуживать. Есть алгоритмы, позволяющие неплохо ускорять MoE модели, не влезающие в gpu, только малым их количеством (например на 196гб ram + 24gb vram запускают deepseek с несколько токенов в секунду).

денег, которые ты потратишь на апгрейд железа хватит на месяцы и годы на использование облачных api, это при использовании топовых моделей, а если брать дешевые слабые (сравнимые с opensource) то и подавно.

И главное, сносное качество открытые модели дают в режиме рассуждения, которое кратно увеличивает время до получения ответа (десяток минут), стоит ли оно того?
Ответ написан
Комментировать
@Zerg89
git ollama
И навыбор много llm моделей под нее
Ответ написан
Комментировать
@Sergynya
В LM studio много разных моделей, можно также подрубать к пайтону. есть для картинок распознования и текстовые но не все задачи потянут для некоторых задач(причем достаточно бытовых потипу по определенному сценараию написать тект обзора для tts) это все бесполезная помойка которую обучать и обучать и некак не обойти придеться использовать api ПЛАТНЫХ поделей.
Ответ написан
Комментировать
@perezagruzi_kod1
О, отличная тема для локального хакинга! Под твой кейс — питоновский агент для простых тасок — есть несколько адекватных легковесок.

Смотри в сторону CodeLlama 7B (или его инструктурную версию) — она заточена именно под код и на среднем железе потянет. Ещё есть Phi-3 mini от Microsoft — вообще малютка, но очень шустрая и для базовых задач хватит за глаза. DeepSeek-Coder тоже хвалят за адекватность в код-генерации.

Главный плюс локальщины — полная приватность и ноль лагов. Минус — до GPT-4 по качеству не дотянут, но для автоматизации рутины и описания функций — вполне.

Чтобы не качать всё подряд, залетай на Neuromanual.ru — там есть сравнения моделей по перфомансу на разных бенчмарках, включая код-генерацию. Увидишь, какая именно по характеристикам тебе зайдет.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы