Компьютер с какими характеристика требуется для комфортного использования llama3.1:405b?

Question

Надим @zkrvndm

Архитектор решений

Компьютер с какими характеристика требуется для комфортного использования llama3.1:405b?

Знаю, что для младших моделей достаточно иметь 16 и 32 Гб оперативной памяти, но никак не могу найти требования для старшей модели. Каким должен быть мой домашний ПК, чтобы на минималках тянуть одну из топовых оффлайн языковых моделей?

https://habr.com/ru/companies/bothub/articles/835100/

Вопрос задан более года назад
3779 просмотров

Комментировать

Подписаться 2 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 3

6 комментариев

Надим @zkrvndm Автор вопроса

Жесть, офигеть. Не ожидал, что так дохрена памяти и мощностей нужно, для работы готовой нейронки.

Написано 29 авг. 2024
Air_Sev @Air_Sev

Хочу начать разбираться с генеративной текстовой сетью, но не знаю с чего начать. Основная цель иметь возможность дообучать сеть простыми фактами, или даже текстами. Но какие интерфейсы у ллама, как ими пользоваться где об этом почитать не понимаю. Есть ли какие-нибудь библиотеки, которые позволяют работать с сеть через промты, т.е. сказать ей "ремембе ... и далее ряд фактов о чем либо" и она принимает это как комманду и сохраняет в себе, либо кэширует эти сообщения, и сохраняет в отдельное время все вместе.

и второй вопрос, хватит ли на это CPU? например двух 2696v4 с 8 каналами памяти или все таки современные процессоры как например 13900 но шина данных с оперативкой у 13900 будет меньше

можно ли пообщаться с вами на эту тему?

Написано 10 нояб. 2024
rPman @rPman

Air_Sev, дообучать нейронки СЛОЖНО, по простому, даже при наличии железа, finetuning в лоб (без изначальной обучающей выборки, а ее в хороших моделях не открывают, ни llama ни qwen) будет ломать нейронку, она будет забывать что уже знает, концентрируясь на твоей выборке.

И даже тут потребуются качественные данные, большого объема (тысячи и десятки тысяч примеров) и повторюсь, совпадающие с исходной обучающей выборкой по фактам, иначе сеть повысит галлюцинации там, где найдет противоречие с прошлыми знаниями.

finetuning используют для настройки формата ответа, стилистики, и прочей не информативных но полезных способностей модели. Например дотюнить сеть на своих чатах, чтобы она смогла симулировать общение, были на хабре и не только статьи примеры как раз на llama 8b, для этого требуется не дорогое железо (кажется хватит двух nvidia 4060ti 16gb, стоят они по ~55т.р.) или арендовать за порядка 100$-200$ на том же vast.ai

Советую вместо дообучения модели, сначала попытаться вытянуть из возможности рассуждать и следовать инструкции (выбирать модели типа instruction), составляя соответствующий промпт (в мире llm ии это чуть ли не программа), а так же строить агентные системы, которые будут работать с вопросом, базами данных, внешними сервисами, циклами рассуждений (когда модель сама принимает решение, стоит ли дальше исследовать задачу или можно завершить работу) и прочее прочее, тот же RAG например.

Советую полистать какой-нибудь новостной канал на эту тему, там почерпнешь ключевые слова и название технологий. Так же неплохо поболтать с нейронками от openai, они знают очень много и могут предложить неплохой план работы... только помни, что они могут очень убедительно говорить чушь,..

Написано 10 нояб. 2024
Надим @zkrvndm Автор вопроса

Air_Sev, вы можете использовать Ollama + Openchat. Любой домашний комп с 16 Гб оперативы легко потянет эту нейронку. Качество ответов хорошее, на уровне ChatGPT 3.5.

https://ollama.com/download
https://ollama.com/library/openchat

Ставите Ollama и в консоли запускаете: ollama run openchat

Обучать не надо, просто если вы дергайте сетку через API, то в первом системном сообщении сразу указывайте все вводные. Например, прайс лист ваших услуг и так далее.

Если вводных данных много, то выдавайте их точечно нейронке по его запросу, т. е. первым промптом учите нейронку делать запросы во внешнюю БД и вперед.

Написано 11 нояб. 2024
rPman @rPman

Надим, подход 'в лоб', когда ты все помещает в контекстное окно и дальше ведешь беседу в режиме чата, работает кое как с топовыми моделями типа openai/claude, а вот с открытыми, даже лучшими, это работает отвратительно.

gpt работают хорошо, когда контекстное окно содержит только необходимую здесь и сейчас информацию и минимум не нужной, потому что даже если пишут сотни тысячи токенов окно, реально работает хорошо в родных 8к максимум.

... и даже в этом случае можно получать проблемы переобучения, даже на топовых моделях, тупой пример - если модель при написании программы увидит в форматах массивов похожее на что она знает, она будет ответ корректировать в угоду своему знанию а не тому что ты попросил, например попробуй убедить работать модель gpt4o с api openai, тот же json файл запроса к gpt, измени в ней какую-нибудь мелочь, и в запросе не говори что это openai api, так вот модель молча сама это поймет, и 'исправит твою ошибку', в реальной эксплуатации такие нежданчики могут аукнуться сложно обнаруживаемыми ошибками.

Написано 11 нояб. 2024
Надим @zkrvndm Автор вопроса

rPman, частично можно решить проблему вторым агентом, который чекает ответы первого. Но так-то да, нейросети ещё незрелые.

Написано 12 нояб. 2024

1 комментарий

3 комментария

Надим @zkrvndm Автор вопроса

Так ни что ни мешает собрать следующий свой комп с большим количеством оперативки. Мне кажется оффлайн модели в будущем станут неотъемлемым атрибутом любого ПК. Это же капец как удобно иметь под рукой все знания человечества да еще и без интернета. Я вот к примеру в глуши живу в деревне и тут такое пригодилось бы.

Написано более года назад
freeExec @freeExec

zkrvndm, В глухой деревне вкладывать годовую зарплату в комп, чтобы пообщаться с ботом, это последнее о чём там думают.

Написано более года назад
Надим @zkrvndm Автор вопроса

freeExec, не говорите за всех, по глухим деревням много программистов и других IT специалистов работающих на удаленке разбросано и для них такой комп точно не в годовую зарплату встанет.

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

VPN

+1 ещё

Простой
Какой хостинг выбрать для доступа к нейросетям(openai, gemini, grok)?
- 3 подписчика
- 11 авг.
- 1433 просмотра
4

ответа
Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 85 просмотров
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 81 просмотр
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 159 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 283 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 42 просмотра
1

ответ
API

+1 ещё

Средний
В чем ошибка open ai api response?
- 1 подписчик
- 25 июл.
- 74 просмотра
0

ответов
ChatGPT

Простой
Подписка на ChatGPT в РФ?
- 2 подписчика
- 24 июл.
- 809 просмотров
2

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 65 просмотров
0

ответов
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Стажер Моушен дизайнер для контента в соцсетях музыкального стартапа

Vocaberry

от 15 000 до 15 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

Answer 1 · 2024-08-28 21:41:30

Нужны видеокарты, суммарным объемом 1024гб. тут только специализированные, найти в продаже в странах под санкциями нереал, рынок пустой был уже в 2020-ом. Цены тут 5х от мировых.

Квантизация тут тоже есть, vllm самая эффективная реализация, поэтому если тебе не нужно дообучать, а только исполнение, то пойдет 8bit квантизация.
-------

На процессоре с помощью llama.cpp, где-нибудь 10-20 секунд на токен (кстати повышается в несколько раз при batch запросах, когда тебе нужно обработать сразу много prompt-ов).

Тебе нужна серверная материнка (хоть прошлого поколения, важна оперативная память), размер памяти минимум 256гб (4битная квантизация, потеряешь в качестве), лучше 512гб. К сожалению рынок тут только БУ со всеми вытекающими от сюда ценами и гарантиями.
--------

Можно запускать на нескольких десктопах!
Год назад в llama.cpp портировали MPI реализацию, поддержка запуска на нескольких нодах (как пример нам было 8 raspberrypi и llama65b) поэтому приобрести 4 компьютера по 64-128гб не проблема, процессор не самый топовый, какой-нибудь AMD Ryzen 5 9600X/7600X (6-ядерный, лучшая производительность singlethread дешевле $300/$200), на сколько я понял, упирается все в сеть, поэтому сверху 10Gb ethernet адаптеры в придачу (они относительно дешевые).

Каждый из компьютеров обойдется примерно в 100т.р. (можно ужаться и набрать по 70т.р. но там и процессоры по слабее и память по медленнее, но не значительно), и таких нужно 3-4 штуки.

Сетевые карты 10G покупать парами, объединить в круг (это самый дешевый конфиг). Иначе, еще вложиться в свитч примерно такой же стоимости. Если честно я не нашел информации или каких то расчетов, которые скажут требования к сети, очень даже может быть что хватит встроенных в материнку и гигабитного свитча, речь идет об оптимальной утилизации процессора и памяти.
--------

Есть еще один экстремальный вариант, он не требует почти никаких особых затрат, любая даже самая слабая железка с любым количеством RAM (пусть условно 16гб-32гб будет, контекст хранить нужно) но с максимально быстрым ssd nvme диском (или несколькими в raid0). llama.cpp штатно умеет работать с моделями напрямую с диска (mlock режим), будет считывать всю модель по одному разу на каждый токен.

Например 4 ssd диска (проходной apaser за 2.5т.р. но лучше что то по быстрее с pci-e 4.0) на скорости 2гбайта/с (само собой есть быстрее) с соответствующими pci-e контроллерами обойдутся в считанные 16-25т.р., полученный 'монстр' будет считывать всю модель с 8битной квантизацией за 30-15 секунд, и уже вопрос, успеет ли процессор на такой скорости модель считать.

p.s. осторожно, ssd на 'чтение' тоже не бесплатно работает, это тоже изнашивает ресурс, только не так быстро как запись, может в тысячу раз медленнее, может в десятки тысяч.

Answer 2 · 2024-08-20 23:58:47

llama3.1 70b - 256Гб оперативки CPU, полет нормальный, 48 потоков, ответ в течении десятков секунд. Но и те задачи, что она решает высокой скорости не требуют.

Answer 3 · 2024-08-14 18:10:05

Нет таких домашних ПК где у тебя 512ГБ оперативки. Можешь конечно взять SSD и повесить на него своп, но тогда о каком комфорте может идти речь при скорости токен в пару минут.

Компьютер с какими характеристика требуется для комфортного использования llama3.1:405b?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт