ИИ на ноутбуке с 64 Гб ОЗУ?

Question

akmorp @akmorp

ИИ на ноутбуке с 64 Гб ОЗУ?

Подскажите плиз, в какую сторону копать.
Есть ноут с Debian 13, 64 GB ОЗУ (zram), 512 nvme.
Хочется использовать ИИ (бесплатно) для вайб-кодинга, баловства и т.д., возможно вырастет во что-то большее.
Посоветуйте стек технологий, который стоит посмотреть. Если можно объясните как чайнику. VSCodium установлен.
p.s.
Коллеги, я понимаю что нужно железо для скорости. Но меня интересует более технический вопрос. Подскажите стэк технологий для подобного ноутбука без GPU.

Вопрос задан 13 февр.
1216 просмотров

8 комментариев

Подписаться 3 Простой 8 комментариев

Дмитрий @TrueBers

чтобы комфортно вайб-кодить на локальном инференсе, нужно от 15 тысяч баксов, какой ещё ноутбук?

Написано 13 февр.
pfg21 @pfg21

конечно вайб это круто и современно :) но вы сразу учтите что все ваши ощущения могут просто не реализоваться в физической реальности. .. ну вот не работает физика так как оно того хочетца, при всех вайбах и понтах...
для эффективной работы генеративных сетей нужны а****енные мощности, и свзяь линейная: чем большеее мощщей - тем лучшеее результат.
ваш крутой ноутбук даже со средним сервером рядом не валялся, не говоря уже про кластеры :) на нем игрушку какуюнить запустить можно, но не серъезную систему...
зри в корень - очень упрощает прикладную жизнь.

Написано 13 февр.
Михаил Ливач @Mausglov

где-то в декабре прошлого года я из любопыства считал конфиг ПК под локальный запуск LLM. Получилось порядка 150 тыс рублей. Сильно сомневаюсь, что есть ноутбуки аналогичной мощности.
Разве нельзя собрать стационарный ПК под LLM и работать с ним по локальной сети? Мне кажется, это должно быть возможно.

Написано 13 февр.
d'Ivan @2ord

А что имеется в наличии из GPU/NPU?

Написано 13 февр.
rPman @rPman

pfg21,
для эффективной работы генеративных сетей нужны а****енные мощности, и свзяь линейная: чем большеее мощщей - тем лучшеее результат.
все еще хуже, связь не линейная а ЭКСПОНЕНЦИАЛЬНАЯ, за каждый условный процент качества нужно в двое больше затрат на вычисления и железо.
Михаил Ливач, два-три года назад мой конфиг с 128gb ram и 2x16gb vram (nvidia 4060ti тормозные но это самая дешевая vram на текущий момент) стоил примерно 180т.р., позволяют комфортно (но не идеально) запускать модели до 30b, и с оговорками по больше (есть даже способы запускать с ssd даже большие модели но вам не понравится 1-3токен/сек но там можно хорошо батчи ускорять). Сейчас такой конфиг с трудом можно собрать за 400т.р., память подорожала, видеокарты еще более недоступны,..

Написано 14 февр.
Apasnychel @Apasnychel

pfg21, в большинстве своём это касается только обучение модели.
А уже саму обученных модель в теории можно запуститть, маленькую, но можно.

Написано 17 февр.
pfg21 @pfg21

Apasnychel, в европе в теории и мужик может забеременеть. законотворцы ихнии недавно это узаконили :)
однако...
даже готовая сеть имеет свои "размеры" и потребности в ресурсах. в теории сеть на более слабом конфиге запустить можно и даже она будет работать, но оооочеееень долго. це физика а не вайб :)

Написано 17 февр.
evgensoft @evgensoft

Просто попробовать можно поставить https://github.com/ggml-org/llama.cpp (ollama и подобные под капотом все равно используют llama.cpp) и скачать любую модель в формате GGUF которая влезет в память - https://huggingface.co/models?library=gguf&sort=tr...

Как уже говорили выше - работать будет очень медленно - но попробовать можно
для кодинга вполне неплохо будет https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B... или даже https://huggingface.co/Qwen/Qwen2.5-Coder-14B-Inst...

Написано 19 февр.

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по информационной безопасности + ИИ

9 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

14 комментариев

Valdemar Smörman @smorman

А что может делать огрызок такого, что не может делать аналогичный по параметрам ноут с Линем?
В Маке по сути и это известный факт, внутри тот же Линь, только упакованный в запреты, закрытый код и кусок недоеденного яблока, но за ооочбольшие деньги...

Как в принципе и Андрейка - кастрированный Линь под коммерческие нужды Хухли...

Написано 13 февр.
15432 @15432

Ну как нет альтернатив, есть компы и ноутбуки на AMD AI MAX 395 с unified 128гб оперативкой, из которых на видео можно кинуть 96 ГБ

Написано 13 февр.
Дмитрий @TrueBers

M4 Max и от 64–128 ГБ памяти вы сможете локально использовать вайбкодинг на серьёзных моделях
что за такие серьёзные модели? M4 Max сейчас тянет разве что 33B модели с более-менее выносимым декодингом. 70B на нём 5-7 токенов в секунду выдаёт. Это можно идти курить на полдня, пока задача выполнится, какие 200B?

если вы не готовы отдать до полумиллиона долларов на топовые nvidia карты
Что за карты такие? Из платины делают?

Вообще, что за дурость у людей покупать за 5к+ баксов Макбук, чтобы на нём крутить LLM, гоняя его в хвост и гриву, перегревая, убивая всё, что можно? За эти 5-6 косарей можно столько подписок на топовые модели купить, что на пол-жизни хватит!

Не занимайтесь хернёй, купите подписку за 20 баксов на GPT и юзайте топовую модель для чего угодно.
А за 200 баксов в месяц можно купить топовейшую подписку на лучшие модели из существующих, которые научные открытия делают за эти деньги и почти бесконечные лимиты, которые невозможно выжрать за неделю. За цену Макбука можно почти 3 года сидеть на такой подписке и творить такое, чего ни одна локальная модель не сделает!

Написано 13 февр.
Дмитрий @TrueBers

Valdemar Smörman,
А что может делать огрызок такого, что не может делать аналогичный по параметрам ноут с Линем?
ну, например в 5-10 раз быстрее память. "У ноута с линем" 50-70 GB/s, у M4 Max — 546 GB/s. Каждый GB/s это скорость декодинга, то есть сколько токенов в секунду получится. "Ноут на лине" типовую задачу, которую подписка за 20 баксов сделает за несколько секунд, будет делать несколько часов. Мак сделает от нескольких десятков минут до нескольких часов.

У людей просто нет понимания, что такое вообще ИИ сейчас. Все думают, что это чат, в который надо дать вопрос, и придёт ответ готовый и проверенный. А что такое агентский harness, man-in-the-loop, review loop, orchestration людям не важно. А суть в том, что толк от ИИ сейчас только в этих технологиях. Простой чат ничего не умеет.

Написано 13 февр.
Сергей @sabramovskikh

Дмитрий, Читал отзывы людей о AMD AI MAX 395 128гб.
Запускают qwen3-coder-next и gpt-oss:120b. дают до 50 токенов, в среднем 20-30
Стоит такой мини-пк 200к. не так уж и дорого.
Но я полностью согласен, лучше оплатить подписку на клод код, только этих денег хватит год подписки, с тарифом max, тк у pro тарифа лимиты быстро сжираются. 30-60 минут поработал и жди 5 часов пока сбросятся лимиты

Написано 14 февр.
fenrir @fenrir1121

В маке по сути и это известный факт, внутри тот же Линь, только упакованный в запреты
ОС вообще не при чем. В Маках M серии общая и очень быстрая память, а в лине вам нужно отдельно засунуть видеокарту с огромным объемом памяти, которая будет стоить в разы дороже.

Собственно поэтому чаще всего домашние решения запускают на мак мини или макбуках, как ни парадоксально это самый дешевый вариант.

Написано 14 февр.
Сергей @sabramovskikh

Дмитрий, Вот например нашел табличку с бенчмарками https://kyuz0.github.io/amd-strix-halo-toolboxes/ За 200к рублей вполне прилично

Написано 14 февр.
Дмитрий @TrueBers

Сергей,
qwen3-coder-next и gpt-oss:120b
Это игрушечные модели, что с ними можно сделать? Это максимум делать какую-то классификацию в SO, детект каких-то паттернов естественного языка, сварганить команду для терминала и запустить, распарсить вывод, запустить тесты, распарсить ошибки, выдать отчёт для более взрослой модели — всё, на что способны эти модели, уже пофиксить упавшие тесты они вряд ли смогут.

В плане кодинга они могут только говнокодить примитивные вещи. Ни толковый дизайн системы, ни архитектуру они построить не смогут.

qwen3-coder-next стоит 30 центов за миллион токенов у большинства провайдеров! Сколько миллиардов токенов можно прожевать за 200к рублей?
А если купить у барыг за 2 евро аккаунтов с подпиской на топ-модели, то можно получить 1500 месяцев беспрерывного кодинга на топовой модели. Окей, на одном акке не протянешь по лимитам, 2-3 вполне хватит, делим на 3, получаем 500 месяцев. Это 40 лет, Карл!
Зачем люди покупают железки для запуска на них моделей уровня каменного века по сравнению с топовыми моделями, доступными по подписке за копейки, я не понимаю... хобби тратить деньги у людей, похоже.

Открытые модели созданы не чтобы их скачать и запустить, а чтобы изучить, сделать на их основе свою, затренить на своих данных, как-то использовать это в очень узком направлении. Только для этого они нужны, остальное это тупо соревнование, кто что запустил бестолку.

Написано 14 февр.
Сергей @sabramovskikh

Дмитрий, Сколько миллиардов токенов можно прожевать за 200к рублей? Ну на часов 700 работы хватит) Я тут запускал в опенроутере, 10 лямов токенов сожрал минут за 40.

В целом я согласен, в основном это поиграть, поучиться чему-то, поделать какие-то свои сервисы. Вайбкодить будет невозможно на этом.

А где у барыг акки за 2 евро на claude max? Поделитесь, а то я только за 10к рублей находил(

Написано 14 февр.
Дмитрий @TrueBers

Сергей, Антропики очень боятся бесплатной дистилляции с их моделей, поэтому со скидками у них почти никак. Но есть вариант купить годовой Max x20 со скидкой больше тыщи баксов — из проверенного, пока не забанили, но риски высокие.
А вот ChatGPT, Google, Cursor, Perplexity везде продаются за копейки в районе 1-2 евро. И для фуллтайм работы, и для экспериментов со своими проектами и поделиями — самое то. Как небо и земля в сравнении с дымящим и пыхтящим видеокартовым тостером, гудящим в комнате 24/7 со скоростью улитки.

Мне нравится только Codex, поэтому пользуюсь им в 90% случаев. На прям плотную рабочую неделю 3 аккаунта хватает. В нагрузку pro-модель идёт — хорошо для планирования сложных архитектур или брейншторминга best-practices, идей, и т.п.
Клод в моих задачах очень плох, редко его использую. Либо кросс-ревью делаю, когда кодекс сделал что-то, кидаю его работу на ревью Клоду.

Я тут запускал в опенроутере, 10 лямов токенов сожрал минут за 40.
Смотря на каком harness. Большинство — максимально ублюдские в плане экономии токенов, если найти нормальный под свои задачи (или написать самому, разбираясь в теме), оптимизировать кеш-хиты, можно на 80-95% снизить потребление токенов. Звучит как сказка, но это реальность. Грамотный выбор инструментов под свои задачи — залог успеха в любом деле, тут так же.

Помню, когда вышла glm-4.7, купил Coder Plan у них максимальный. Ну, думаю, заживём щас с почти безлимитом! Прикрутил к Курсору, кинул промпт и забыл. Вернулся, смотрю: 10 лямов токенов как рукой сняло о_О, с одного промпта! Охренел, думал, модель такая плохая. Потом поразбирался, понял, насколько же это кривое поделие Курсор, поковырял кастомные обвязки, которые люди делают, поразбирался, пописал сам. В итоге та же задача уложилась в 60к токенов. 99% мусора куда-то бесследно испарились при загадочных обстоятельствах :D

Написано 15 февр.
Сергей @sabramovskikh

Дмитрий, ChatGPT, Google, Cursor, Perplexity - это студенческие лицензии продают, их часто банят. Вчера поразбирался немного в этом вопросе.
В целом можно и самому себе сделать гемини про на год, есть тг бот, который подтверждает что ты студент. В других просто подделывают доки или делают просто через чарджбек в конце месяца.

Написано 15 февр.
Дмитрий @TrueBers

Сергей,
это студенческие лицензии продают
не совсем так. Студенческая сейчас только OpenAI Edu. И они их не продают, а сами регают на себя, а других просто добавляют в свой workspace. Это даёт полный доступ как на Plus-подписке, плюс ещё крутая исследовательская Pro модель в чате, которая иначе есть только в Pro-подписке за 200 баксов в месяц. Так что, я воспринимаю это как расходник, если забанили учётку за 2 бакса, которая даёт плюшки от 200-баксовой, вообще не велика потеря, я за первые минуты использования отобью эти 2 бакса.

Гугла подписки были в основном с промо их Пикселя, когда давали на год бесплатно подписку, когда телефон покупаешь. Вот индусы и вьетнамцы где-то нашли эти коды и их продавали. У меня прожил 5 месяцев за 5 баксов, что более, чем отлично.

Курсор китайцы давно студенческий продавали, ещё на заре. Сейчас уже лавочку прикрыли, в основном шаровые акки. Да и Курсор с текущей системой биллинга не имеет никакого смысла как инструмент. Слишком кривой и дорогой выходит

Perplexity были с какой-то промо-акции тоже. У меня живёт уже год, не забанили. У брата уже 2 или 3 штуки забанили. Он попал на что-то подобное как с Пикселем, только для Самсунга или чего-то такого. Но лавочку тоже закрывают быстро.

Написано 16 февр.
Сергей @sabramovskikh

Дмитрий, У гугла точно есть студ лицензия на год, вчера парнишка видос скидывал как сделать. Нужна только карта зарубежная для привязки. Он абузит это через андроид телефон для регистрации гугл акка и перевыпуск виртуальной карты для привязки студ лицензии

Сейчас еще нашел тему с Kiro.dev дают акк привязанный к бизнес аккаунту за дешево, там и опус и сонет модели, можно использовать в агентах по ключу или через ide их

Написано 16 февр.
Steel_Balls @Steel_Balls

Valdemar Smörman, Linux кастрировали под Android исходя из скромных возможностей мобильных устройств на момент разработки Андроида

Написано 22 февр.

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- час назад
- 12 просмотров
0

ответов
Linux

+2 ещё

Сложный
Восстановление таблицы разделов?
- 3 подписчика
- 15 мая
- 379 просмотров
2

ответа
Linux

+3 ещё

Средний
Radxa debian почему не работает тачскрин?
- 1 подписчик
- 13 мая
- 152 просмотра
2

ответа
Linux

+2 ещё

Простой
Метка тома системного раздела Linux?
- 1 подписчик
- 13 мая
- 207 просмотров
3

ответа
Linux

+1 ещё

Простой
Звуковые эффекты Realtek audio driver в Linux?
- 1 подписчик
- 12 мая
- 161 просмотр
3

ответа
Linux

+1 ещё

Простой
Почему переодически появляется сообщение в браузере « Прокси-сервер отказывается принимать соединения»?
- 1 подписчик
- 01 мая
- 291 просмотр
2

ответа
Linux

+3 ещё

Средний
Каскадный VPN Vless+Realty — почему отваливается SSH?
- 3 подписчика
- 29 апр.
- 2276 просмотров
1

ответ
Linux

+1 ещё

Средний
Как запретить пользователю авторизацию через одноименного системного пользователя?
- 4 подписчика
- 29 апр.
- 669 просмотров
1

ответ
Unity

+2 ещё

Простой
Почему Visual Studio не может найти библиотеку Unity.Sentis, если соответствующий плагин уже установлен в проект и даже смог конвертировать файл?
- 1 подписчик
- 24 апр.
- 89 просмотров
1

ответ
Linux

+1 ещё

Средний
Как добавить в cryptsetup поддержку опции tpm-with-pin в ubuntu 24.04.4?
- 1 подписчик
- 19 апр.
- 143 просмотра
1

ответ
Показать ещё Загружается…

чтобы комфортно вайб-кодить на локальном инференсе, нужно от 15 тысяч баксов, какой ещё ноутбук?
конечно вайб это круто и современно :) но вы сразу учтите что все ваши ощущения могут просто не реализоваться в физической реальности. .. ну вот не работает физика так как оно того хочетца, при всех вайбах и понтах...
для эффективной работы генеративных сетей нужны а****енные мощности, и свзяь линейная: чем большеее мощщей - тем лучшеее результат.
ваш крутой ноутбук даже со средним сервером рядом не валялся, не говоря уже про кластеры :) на нем игрушку какуюнить запустить можно, но не серъезную систему...
зри в корень - очень упрощает прикладную жизнь.
где-то в декабре прошлого года я из любопыства считал конфиг ПК под локальный запуск LLM. Получилось порядка 150 тыс рублей. Сильно сомневаюсь, что есть ноутбуки аналогичной мощности.
Разве нельзя собрать стационарный ПК под LLM и работать с ним по локальной сети? Мне кажется, это должно быть возможно.
pfg21,
для эффективной работы генеративных сетей нужны а****енные мощности, и свзяь линейная: чем большеее мощщей - тем лучшеее результат.
все еще хуже, связь не линейная а ЭКСПОНЕНЦИАЛЬНАЯ, за каждый условный процент качества нужно в двое больше затрат на вычисления и железо.
Михаил Ливач, два-три года назад мой конфиг с 128gb ram и 2x16gb vram (nvidia 4060ti тормозные но это самая дешевая vram на текущий момент) стоил примерно 180т.р., позволяют комфортно (но не идеально) запускать модели до 30b, и с оговорками по больше (есть даже способы запускать с ssd даже большие модели но вам не понравится 1-3токен/сек но там можно хорошо батчи ускорять). Сейчас такой конфиг с трудом можно собрать за 400т.р., память подорожала, видеокарты еще более недоступны,..
pfg21, в большинстве своём это касается только обучение модели.
А уже саму обученных модель в теории можно запуститть, маленькую, но можно.
Apasnychel, в европе в теории и мужик может забеременеть. законотворцы ихнии недавно это узаконили :)
однако...
даже готовая сеть имеет свои "размеры" и потребности в ресурсах. в теории сеть на более слабом конфиге запустить можно и даже она будет работать, но оооочеееень долго. це физика а не вайб :)
Просто попробовать можно поставить https://github.com/ggml-org/llama.cpp (ollama и подобные под капотом все равно используют llama.cpp) и скачать любую модель в формате GGUF которая влезет в память - https://huggingface.co/models?library=gguf&sort=tr...

Как уже говорили выше - работать будет очень медленно - но попробовать можно
для кодинга вполне неплохо будет https://huggingface.co/unsloth/Qwen3-Coder-30B-A3B... или даже https://huggingface.co/Qwen/Qwen2.5-Coder-14B-Inst...

Answer 1 · 2026-02-13 10:39:21

Вам ничего не мешает установить ollama на этот ноут и проверить возможности моделей, которые влезут в его память.
PS: Отвечу заранее, мощностей моделей хватит, чтобы с вами поболтать о погоде, играть в шарады, но ни о какой серьезной работе речь идти не может - модели объемов для персональных компов слишком туповаты, они не вместят в него необходимый контекст.
PPS: Единственное направление для нейросетей, развернутых на коленке - это нейросети для распознавания образов. OCR, категоризация объектов, отслеживание наступления какого-либо состояния по изображению, звуку, других аналоговых метрик. Вот это можно ковырять в походных условиях. Про полноценную LLM даже не мечтайте развернуть.

Answer 2 · 2026-02-13 09:24:09

Только на Макбуках последнего и предпоследнего поколения с M4 Max и от 64–128 ГБ памяти вы сможете локально использовать вайбкодинг на серьёзных моделях. Потому что только у Apple есть ноутбуки с unified memory, куда влезает 200B модель в 4-битной квантизации . Всё что ниже будет не вайбкодить, а копрокодинг. Даже 70B модель на RTX 4090 без CPU offload не завезти, там 24 ГБ просто не хватит.

В ПК просто нет альтернатив, если вы не готовы отдать до полумиллиона долларов на топовые nvidia карты.

Answer 3 · 2026-02-14 08:47:36

Играюсь последние дни с openhands ai, с универсальным автономным агентом, хотя и заточенным на программирование но способным решать и другие задачи (качество зависит от используемых моделей и настройки mcp серверов).

На swebench OpenHands + Qwen3-Coder-480B-A35B-Instruct в топе 69.60% (при SOTA проприетарных 78.8%), 30b модель 51.6% (при этом если использовать заточенный на прохождение бенчмарка инструмент entropro+r2e то слабая модель будет уже 60.4% но это специализированный инструмент, заточенный именно на эту модель и исключительно на победу в тесте, а не как автономный агент)

С помощью lm studio (можно и ollama само собой) локальная машина хостит qwen3-coder-30b-a3b (4битная квантизация веса моделей 19гб, с лихвой хватает 2x16gb vram, т.е. на 32гб ram машине это будет работать и на cpu. Помним, квантизация слабые модели ломает, на вашем конфиге пойдет 8b квантизация, которая почти не меняет качество... но это еще медленее.

Пока я экспериментирую с простыми задачами, разбираюсь с настройками и недостатками модели, но выглядит все даже с локальной моделью впечатляюще...

Решая задачу агент самостоятельно выбирает метод (естественно можно подсказать, не только заранее но и в процессе), сам настраивает окружение (использует docker песочницу, для windows нужен wsl), сам придумывает тесты (он буквально может нажимать кнопки в терминале, например я просил разработать тесты приложения для проверки реакции на ctrl+break), если приложение зависло он это учтет... если его код не работает, он начинает изучать проблему, буквально может открыть python и в нем экспериментировать с короткими снипетами, что бы посмотреть, подойдет ли решение, и вставит позже его в код, вроде бы он способен на отладку, я до этого не дошел, базовые скилы включают умение искать, работать в браузере и т.п. (слабо изучал, как я понял с vision моделями он не работает или я хз как). Если ему объяснить, он сможет работать с инструментами в сети.. в общем даже с учетом проблем слабой модели, выглядит это просто шикарно.

Проблемы тоже есть, например когда я экспериментировал с glm47flash (такая же модель по скорости и требованиям), она с одно стороны лучше работала с русскоязычными инструкциями (да, хотя открытые модели рекомендуется на английском, я и это тестировал) но мусорит в модели обильно unicode эмоджи, а когда я попросил код с тестами на разные unicode случаи, оно повисло (модель стала генерировать много повторяющегося мусора), к сожалению агент не дает хоть каких то инструментов мониторинга модели и что там происходит, только то что хочет сказать и сделать модель сейчас (между действиями может быть несколько запросов, и никакого прогресса, даже кнопка стоп не реагирует, приходится lmstudio сервер останавливать), с qwen3 я пока такого не встречал но все возможно.

p.s. помним, мусор на входе = мусор на выходе. Составляйте задание как можно более подробным, собирая как можно больше информации, не давайте модели свободу,.. ИИ любит оверинженерить, если просто попросить документацию, это будет тонна воды и минимум пользы, документация тоже требует исследований и анализ.

upd. единственный смысл мучить локальные модели - это работа с данными под NDA и аналогами. Подписки и доступ к api дают на порядок выше качество за относительно адекватные деньги (уж точно можно оплачивая api/подписки годами набирать такую же сумму, которую потратишь на железо, способное работать средненько)

Answer 4 · 2026-02-14 11:12:45

Расскажу как оно у меня работает, только у меня 32 VRAM.

У меня стоит и Ollama и LMStudio. LMStudio работает лучше, тк в олламе обновления для запуска новых моделей выходят гораздо позже, плюс с huggingface.co работают далеко не все модели.

Я поставил себе claude code cli (он работает и с локальными моделями) в .bashrc прописал такие переменные для подключения к lmstudio (для олламы только порт поменять)

export ANTHROPIC_BASE_URL=localhost:1234
export ANTHROPIC_AUTH_TOKEN=lmstudio

и просто запускаю через терминал например claude --model gpt-oss:20b
Для поиграть и понять как оно работает этого будет достаточно.

По моделям для агентного программирования:

gpt-oss:20b - занимает всего 15-20 гигабайт памяти, что-то пишет как агент.
На 64гб возможно получится запустить 4 битную https://huggingface.co/unsloth/Qwen3-Coder-Next-GGUF На 32гб запускается 2 битная, но работает просто ужасно, а так ей нужно гигабайт 80-90 для нормальной работы. Она уже дает хоть какие адекватные результаты.
Другие локальные модели как агенты программирования (чтобы написали тебе целый сайт например) не дадут результата, либо дадут полную фигню, они работают хорошо как чат. Могут еще и комп сильно перегреть, если не заточены под работу агента.

В основном локально сейчас я использую только как чат модель Qwen3-Coder-30b (занимает 28 гигов vram) Дает нормальные ответы, рефакторит куски кода. Так же использую просто "Режим ИИ" в гугле, бесплатно, ответы хорошие.

Поигравшись я понял что локально запускать агента это никуда не годится. Купил акк для claude code на месяц и сразу понял насколько велика разница по сравнению с локальными моделями. Я ему составил ТЗ для сайта, приложил примеры апи (через тот же Qwen3-Coder-30b) и уже через пол часа получил готовый проект на nuxt.js из 5 страниц с полным рестапи.

Потом я решил купить акк google gemini на год, но тут нужен хороший квн, не в Нидерланде, чтобы он по стране не заблокировал тебя, у меня USA регион прошел нормально. Поставил так же gemini-cli и antigravity (форк vscode) В целом работает похуже чем claude, но работает нормально, рефакторит мне код потихоньку.

Еще создал себе аккаунт на openroute, закинул туда 15 баксов. Чтобы пробовать запускать новые модельки, которые не влезают в память, но это чисто поиграть и потестить.

ИИ на ноутбуке с 64 Гб ОЗУ?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт