Локальные нейросети для автоматизации. Что лучше использовать?

Question

vseminelybim @vseminelybim

Python ботоводство и прочая грязюка

Нейронные сети

Локальные нейросети для автоматизации. Что лучше использовать?

По рабочим процессам потребовалась экая-некая автоматизация и, ввиду большой любви к машинному обучению и нейросетям, решил больше погрузиться в это дело.

Суть такова:
Есть запрос на создание автоматизированной аналитической системы, которая бы смогла собирать информацию с поисковой выдачи (статьи, новости, посты) по тематике, просматривать содержимое, взаимодействовать с контентом (где-то нажать на "Читать далее" или подобное) и составлять сводную таблицу по заданным параметрам.

Сразу оговорюсь, что писать код под каждую площадку, чтобы вытягивать div с текстом, прописывать взаимодействия с кнопками по их названию или расположению - нецелесообразно, так как сайты постоянно разные и наполнение тоже меняется. Соответственно, в какой-то момент я пришел с этой задачей к нейросетям.
Из популярных (ChatGPT, Grok, Gemini, Claude, QWEN, Perplexity) все хорошо справляются, но не закрывают полный цикл задачи, да и доступ к API (если есть) дорогой и не удобный, так как живу в РФ.
MCP сервера пробовал (те, что на playwright) для Claude, но сама нейронка начинала путаться.
Недавно попробовал MANUS, который меня очень удивил и практически полностью выполнил поставленную задачу (в рамках теста был не самый подробный промпт). Такого рода Агент мне понравился. Пробовал накодить автоматизацию с помощью Yandex Cloud (Search API и YandexGPT) и всё хорошо, да только контекстное окно в 8к токенов не радует.

spoiler

(Ну и для вайб-кодинга Cursor с Windsurf тоже, естественно, юзал)

Поэтому возникла мысль о локальной LLM. Поставил нашумевшую LMStudio, запустил сервер, напитонил микрокод.
Из этого возникли вопросики:
- Какие модели с Hugging Face хорошо работают с русским языком без тюнинга и дообучения?
- Какие железки будут нужны для комфортного и быстрого взаимодействия с этими модельками?
- Если мои мысли про локальные модели это бред, то что можно придумать ещё?
- Есть у кого-нибудь реально хорошие кейсы по использованию LMStudio по API для решения своих задач?

Вопрос задан 18 мая
4571 просмотр

Комментировать

Подписаться 6 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

vseminelybim @vseminelybim Автор вопроса

Спасибо за модельки! Попробую

Про OpenManus слышал, но ещё не пробовал. Пока сидел, увидел ещё BrowserUse вроде может подходить для этой задачи, но тоже пока не пробовал

По оперативке у меня 32гб DDR5. Надеюсь хватит)
А, 18тб...штош)

Написано 18 мая
Refguser @Refguser

vseminelybim,

По оперативке у меня 32гб DDR5. Надеюсь хватит)

забудь :) Для локалок нужна не абы какая видуюха.

Написано 19 мая
rPman @rPman

Refguser, любая г..но, лишь бы было суммарно много видеопамяти, буквально майнинговые материнки с кучей любых (лучше одинакового вендора intel/amd/nvidia а то есть проблемы с дрейверами) видеокарт
У меня 2х16гб nvidia 4060ti, они для игр медленные, а вот для нейронок соотношение стоимость/скорость наилучшие.

vseminelybim, 32гб на адекватные модели мало, нужно 64гб, лучше 128гб, тогда в режиме batching можно получить хороший прирост в 'токены в секунду', т.е. к примеру нужно тебе обработать один файл несколькими запросами (системный промпт+данные+запрос+...), при использование кеша системный промпт+данные закешируются не не будут обрабатываться, а значит время и ресурсы будут тратиться только на анализ запроса и генерацию ответа, а если у тебя много разных запросов над одними и теми же данными, они в режиме батчинга одновременно будут обрабатываться... памяти для этого нужно много.

Точно знаю, можно неплохо грузить модель с диска (особенно озаботились когда deepseek вышел с требованиями в 600гб только на веса), что так же для батчинг режима хорошо.. но все же, ждать пол часа ответа на вопрос (даже если их одновременно было задано 100) это садомаза.

Написано 19 мая
vseminelybim @vseminelybim Автор вопроса

rPman, по видяхе сегодня присмотрелся к 5060ti на 12гб за 60к, ну и докупить до 128 гб оперативки, благо позволяет и проц и мать
Сегодня попробовал ту модельку, которую ты первой назвал Phi и результат для меня уже неплохой

Написано 19 мая
Refguser @Refguser

rPman, я вообще-то сказал тоже самое, но короче :) (и есть ощущение что ТС не понимает что вопрос именно видюхе, а не "оперативке")

Написано 19 мая
rPman @rPman

обычная оперативка тоже будет работать, просто медленнее раз в 6-10 (а если батчинг смотреть с видеокартами, там и все 300 можно разницу получить)

для phi нужно 2x16 и будет хватать примерно на 8к контекста, но lmstudio очень красиво оптимизирует и тормозить будет только при переполнении

Написано 19 мая

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 80 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 80 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 149 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 264 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 63 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 224 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 164 просмотра
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Сетевой инженер

МТС • Владивосток

от 100 000 ₽

Answer 1 · 2025-05-18 22:16:39

https://llm-stats.com/ выбрать Open Models и получаем что лучшая локальная за адекватную стоимость сейчас это Microsoft Phi-4 Reasoning Plus 14b (да и все семейство phi-4 занимают лидирующее место из маленьких моделей), рядышком я бы поставил qwen 30b a3b, с их возможностью переключаться на ходу в режим reasonong и обратно (она еще быстрее и памяти просит всего в 2-3 раза больше). Из мультимодальных верхушку маленьких занимает mistral small 3.1 24b и гугловская gemma3 27 (да и 12b, они не сильно отличаются).

Вы пробовали OpenManus? я читал что ее запускают с локальными моделями и результаты неплохие.

p.s. на процессоре будет МЕДЛЕННО, особенно когда работают десятки-сотни агентов и особенно если использовать режим reasoning, где за дополнительные 15% качества приходится платить минутами и часами времени

Современные модели даже маленькие требует оперативную память, я игрался с 2x16gb и этого мало. После 8-16к контекста, требования к памяти сравнимы с объемом хранения весов, а сотни килотокенов уже заметно превышают... Например gemma3 12b только для запуска требует дополнительно 24гб. И как вырожденный пример - llama scout с 10кк контекста на его полный потребует 18терабайт оперативки.

Answer 2 · 2025-05-24 00:36:29

Qwen2.5, gemma3, есть русифицированные модели mistral.
А в плане создания своего агента рекомендую посмотреть на инструмент n8n. У него достаточно богатый функционал, множество интеграций из коробки и есть возможность составлять цепочки обработки с визуальным отображением процесса.

Локальные нейросети для автоматизации. Что лучше использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт