Задать вопрос

ИИ на ноутбуке с 64 Гб ОЗУ?

Подскажите плиз, в какую сторону копать.
Есть ноут с Debian 13, 64 GB ОЗУ (zram), 512 nvme.
Хочется использовать ИИ (бесплатно) для вайб-кодинга, баловства и т.д., возможно вырастет во что-то большее.
Посоветуйте стек технологий, который стоит посмотреть. Если можно объясните как чайнику. VSCodium установлен.
p.s.
Коллеги, я понимаю что нужно железо для скорости. Но меня интересует более технический вопрос. Подскажите стэк технологий для подобного ноутбука без GPU.
  • Вопрос задан
  • 1064 просмотра
Подписаться 3 Простой 8 комментариев
Помогут разобраться в теме Все курсы
  • Skillbox
    Linux для робототехников
    3 месяца
    Далее
  • Stepik
    Пакет курсов по Linux: видеокурс + сертификационные экзамены
    1 неделя
    Далее
  • Учебный центр IBS
    AL-1801 ОС Astra Linux Special Edition 1.8 для пользователей
    1 неделя
    Далее
Пригласить эксперта
Ответы на вопрос 4
@alexalexes
Вам ничего не мешает установить ollama на этот ноут и проверить возможности моделей, которые влезут в его память.
PS: Отвечу заранее, мощностей моделей хватит, чтобы с вами поболтать о погоде, играть в шарады, но ни о какой серьезной работе речь идти не может - модели объемов для персональных компов слишком туповаты, они не вместят в него необходимый контекст.
PPS: Единственное направление для нейросетей, развернутых на коленке - это нейросети для распознавания образов. OCR, категоризация объектов, отслеживание наступления какого-либо состояния по изображению, звуку, других аналоговых метрик. Вот это можно ковырять в походных условиях. Про полноценную LLM даже не мечтайте развернуть.
Ответ написан
Комментировать
@tukreb
Только на Макбуках последнего и предпоследнего поколения с M4 Max и от 64–128 ГБ памяти вы сможете локально использовать вайбкодинг на серьёзных моделях. Потому что только у Apple есть ноутбуки с unified memory, куда влезает 200B модель в 4-битной квантизации . Всё что ниже будет не вайбкодить, а копрокодинг. Даже 70B модель на RTX 4090 без CPU offload не завезти, там 24 ГБ просто не хватит.

В ПК просто нет альтернатив, если вы не готовы отдать до полумиллиона долларов на топовые nvidia карты.
Ответ написан
@rPman
Играюсь последние дни с openhands ai, с универсальным автономным агентом, хотя и заточенным на программирование но способным решать и другие задачи (качество зависит от используемых моделей и настройки mcp серверов).

На swebench OpenHands + Qwen3-Coder-480B-A35B-Instruct в топе 69.60% (при SOTA проприетарных 78.8%), 30b модель 51.6% (при этом если использовать заточенный на прохождение бенчмарка инструмент entropro+r2e то слабая модель будет уже 60.4% но это специализированный инструмент, заточенный именно на эту модель и исключительно на победу в тесте, а не как автономный агент)

С помощью lm studio (можно и ollama само собой) локальная машина хостит qwen3-coder-30b-a3b (4битная квантизация веса моделей 19гб, с лихвой хватает 2x16gb vram, т.е. на 32гб ram машине это будет работать и на cpu. Помним, квантизация слабые модели ломает, на вашем конфиге пойдет 8b квантизация, которая почти не меняет качество... но это еще медленее.

Пока я экспериментирую с простыми задачами, разбираюсь с настройками и недостатками модели, но выглядит все даже с локальной моделью впечатляюще...

Решая задачу агент самостоятельно выбирает метод (естественно можно подсказать, не только заранее но и в процессе), сам настраивает окружение (использует docker песочницу, для windows нужен wsl), сам придумывает тесты (он буквально может нажимать кнопки в терминале, например я просил разработать тесты приложения для проверки реакции на ctrl+break), если приложение зависло он это учтет... если его код не работает, он начинает изучать проблему, буквально может открыть python и в нем экспериментировать с короткими снипетами, что бы посмотреть, подойдет ли решение, и вставит позже его в код, вроде бы он способен на отладку, я до этого не дошел, базовые скилы включают умение искать, работать в браузере и т.п. (слабо изучал, как я понял с vision моделями он не работает или я хз как). Если ему объяснить, он сможет работать с инструментами в сети.. в общем даже с учетом проблем слабой модели, выглядит это просто шикарно.

Проблемы тоже есть, например когда я экспериментировал с glm47flash (такая же модель по скорости и требованиям), она с одно стороны лучше работала с русскоязычными инструкциями (да, хотя открытые модели рекомендуется на английском, я и это тестировал) но мусорит в модели обильно unicode эмоджи, а когда я попросил код с тестами на разные unicode случаи, оно повисло (модель стала генерировать много повторяющегося мусора), к сожалению агент не дает хоть каких то инструментов мониторинга модели и что там происходит, только то что хочет сказать и сделать модель сейчас (между действиями может быть несколько запросов, и никакого прогресса, даже кнопка стоп не реагирует, приходится lmstudio сервер останавливать), с qwen3 я пока такого не встречал но все возможно.

p.s. помним, мусор на входе = мусор на выходе. Составляйте задание как можно более подробным, собирая как можно больше информации, не давайте модели свободу,.. ИИ любит оверинженерить, если просто попросить документацию, это будет тонна воды и минимум пользы, документация тоже требует исследований и анализ.

upd. единственный смысл мучить локальные модели - это работа с данными под NDA и аналогами. Подписки и доступ к api дают на порядок выше качество за относительно адекватные деньги (уж точно можно оплачивая api/подписки годами набирать такую же сумму, которую потратишь на железо, способное работать средненько)
Ответ написан
Комментировать
sabramovskikh
@sabramovskikh
Расскажу как оно у меня работает, только у меня 32 VRAM.

У меня стоит и Ollama и LMStudio. LMStudio работает лучше, тк в олламе обновления для запуска новых моделей выходят гораздо позже, плюс с huggingface.co работают далеко не все модели.

Я поставил себе claude code cli (он работает и с локальными моделями) в .bashrc прописал такие переменные для подключения к lmstudio (для олламы только порт поменять)
export ANTHROPIC_BASE_URL=localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

и просто запускаю через терминал например claude --model gpt-oss:20b
Для поиграть и понять как оно работает этого будет достаточно.

По моделям для агентного программирования:
  • gpt-oss:20b - занимает всего 15-20 гигабайт памяти, что-то пишет как агент.
  • На 64гб возможно получится запустить 4 битную https://huggingface.co/unsloth/Qwen3-Coder-Next-GGUF На 32гб запускается 2 битная, но работает просто ужасно, а так ей нужно гигабайт 80-90 для нормальной работы. Она уже дает хоть какие адекватные результаты.
  • Другие локальные модели как агенты программирования (чтобы написали тебе целый сайт например) не дадут результата, либо дадут полную фигню, они работают хорошо как чат. Могут еще и комп сильно перегреть, если не заточены под работу агента.


В основном локально сейчас я использую только как чат модель Qwen3-Coder-30b (занимает 28 гигов vram) Дает нормальные ответы, рефакторит куски кода. Так же использую просто "Режим ИИ" в гугле, бесплатно, ответы хорошие.

Поигравшись я понял что локально запускать агента это никуда не годится. Купил акк для claude code на месяц и сразу понял насколько велика разница по сравнению с локальными моделями. Я ему составил ТЗ для сайта, приложил примеры апи (через тот же Qwen3-Coder-30b) и уже через пол часа получил готовый проект на nuxt.js из 5 страниц с полным рестапи.

Потом я решил купить акк google gemini на год, но тут нужен хороший квн, не в Нидерланде, чтобы он по стране не заблокировал тебя, у меня USA регион прошел нормально. Поставил так же gemini-cli и antigravity (форк vscode) В целом работает похуже чем claude, но работает нормально, рефакторит мне код потихоньку.

Еще создал себе аккаунт на openroute, закинул туда 15 баксов. Чтобы пробовать запускать новые модельки, которые не влезают в память, но это чисто поиграть и потестить.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы