Играюсь последние дни с
openhands ai, с универсальным автономным агентом, хотя и заточенным на программирование но способным решать и другие задачи (качество зависит от используемых моделей и настройки mcp серверов).
На swebench OpenHands + Qwen3-Coder-480B-A35B-Instruct в топе 69.60% (при SOTA проприетарных 78.8%), 30b модель 51.6% (при этом если использовать заточенный на прохождение бенчмарка инструмент entropro+r2e то слабая модель будет уже 60.4% но это специализированный инструмент, заточенный именно на эту модель и исключительно на победу в тесте, а не как автономный агент)
С помощью lm studio (можно и ollama само собой) локальная машина хостит
qwen3-coder-30b-a3b (4битная квантизация веса моделей 19гб, с лихвой хватает 2x16gb vram, т.е. на 32гб ram машине это будет работать и на cpu. Помним, квантизация слабые модели ломает, на вашем конфиге пойдет 8b квантизация, которая почти не меняет качество... но это еще медленее.
Пока я экспериментирую с простыми задачами, разбираюсь с настройками и недостатками модели, но выглядит все даже с локальной моделью впечатляюще...
Решая задачу агент самостоятельно выбирает метод (естественно можно подсказать, не только заранее но и в процессе), сам настраивает окружение (использует docker песочницу, для windows нужен wsl), сам придумывает тесты (он буквально может нажимать кнопки в терминале, например я просил разработать тесты приложения для проверки реакции на ctrl+break), если приложение зависло он это учтет... если его код не работает, он начинает изучать проблему, буквально может открыть python и в нем экспериментировать с короткими снипетами, что бы посмотреть, подойдет ли решение, и вставит позже его в код, вроде бы он способен на отладку, я до этого не дошел, базовые скилы включают умение искать, работать в браузере и т.п. (слабо изучал, как я понял с vision моделями он не работает или я хз как). Если ему объяснить, он сможет работать с инструментами в сети.. в общем даже с учетом проблем слабой модели, выглядит это просто шикарно.
Проблемы тоже есть, например когда я экспериментировал с glm47flash (такая же модель по скорости и требованиям), она с одно стороны лучше работала с русскоязычными инструкциями (да, хотя открытые модели рекомендуется на английском, я и это тестировал) но мусорит в модели обильно unicode эмоджи, а когда я попросил код с тестами на разные unicode случаи, оно повисло (модель стала генерировать много повторяющегося мусора), к сожалению агент не дает хоть каких то инструментов мониторинга модели и что там происходит, только то что хочет сказать и сделать модель сейчас (между действиями может быть несколько запросов, и никакого прогресса, даже кнопка стоп не реагирует, приходится lmstudio сервер останавливать), с qwen3 я пока такого не встречал но все возможно.
p.s. помним, мусор на входе = мусор на выходе. Составляйте задание как можно более подробным, собирая как можно больше информации, не давайте модели свободу,.. ИИ любит оверинженерить, если просто попросить документацию, это будет тонна воды и минимум пользы, документация тоже требует исследований и анализ.
upd. единственный смысл мучить локальные модели - это работа с данными под NDA и аналогами. Подписки и доступ к api дают на порядок выше качество за относительно адекватные деньги (уж точно можно оплачивая api/подписки годами набирать такую же сумму, которую потратишь на железо, способное работать средненько)