Как поместить большую модель на нескольких видеокартах?

Question

ExeLover @ExeLover

Как поместить большую модель на нескольких видеокартах?

Хочу дообучить Llama 3 (70B) (подаю запрос уже второй раз т.к первый отклонен) на своем датасете, но только весит это модель огого. В одну карточку в 80 гигов я не уложу саму модель, что уж там и про датасет говорить. Есть какие-то способы уместить модель + датасет на нескольких карточках?

Вопрос задан более года назад
1275 просмотров

3 комментария

Подписаться 1 Средний 3 комментария

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

ExeLover @ExeLover Автор вопроса

То есть GPT-3 с 175 млрд параметрами квантовали, обучали, разквантовали (или как это называется)? Если бы мне нужно было квантовать модель, то этого вопроса бы и не было.. Вопрос о том как уместить модель на 100 гигабайт на нескольких видеокарточках по 80 (или по 40). Это же не дата параллель, мне нужно не данные разделить, а модель (я хотя и данные тоже желательно)

Написано более года назад
rPman @rPman

ExeLover, зависит от того зачем ты загружаешь модель в видеокарту, тюнить или только вопросики задавать

второе - llama.cpp

Написано более года назад
ExeLover @ExeLover Автор вопроса

rPman, тюнить, а потом вопросики задавать. Ну вопросики задавать это потом. Сейчас тюнить

Написано более года назад
ExeLover @ExeLover Автор вопроса

rPman?

Написано более года назад
rPman @rPman

у меня почти нет опыта в тюнинге, llama.cpp пока не умеет, а дальше для каждой модели свой код для тюнинга, все используют transformers на python, гугли библиотеки

upd. вот посмотри этот проект
https://github.com/OpenAccess-AI-Collective/axolotl

Написано более года назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 9 часов назад
- 50 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 130 просмотров
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 184 просмотра
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 39 просмотров
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 53 просмотра
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 62 просмотра
0

ответов
Видеокарты

+2 ещё

Простой
Существует ли софт, позволяющий задействовать всю мощь CUDA при кодировании видеофайлов?
- 2 подписчика
- 19 июл.
- 710 просмотров
2

ответа
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 54 просмотра
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 208 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Требуется ли junior deep learning инженеру знание математики?
- 1 подписчик
- 13 июл.
- 129 просмотров
2

ответа
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Эксперт по транспортной сети/Сетевой инженер

НТЦ ПРОТЕЙ • Санкт-Петербург

от 200 000 ₽

JS Fullstack Инженер (Node.js + Vue.js)

SteadyControl • Воронеж

от 100 000 до 250 000 ₽

я не уложу саму модель

Какой код ошибки ты видишь на экране?
mayton2019, Я вижу что мой второй запрос на доступ к Llama 3 был отклонен. А так по идее должна быть Cuda out of memory т.к я попытаюсь уместить 100 гигов модели на 80 гигов видеокарточки
мой второй запрос на доступ к Llama 3 был отклонен.

Я - пас. Я ХЗ что это такое. Видимо тут стек технологий посложнее.

Answer 1 · 2024-05-02 21:46:04

Требования оперативной памяти к GPT моделям примерно 2x байт от количества параметров (на самом деле сложнее и больше но но начинают говорить именно с этой оценки). Полистай сообщения этого бота на huggingface, вот пример для llama2-70b

float32	256.29 GB
float16	128.15 GB
int8	64.07 GB квантизация
int4	32.04 GB квантизация

Для использовании модели не для ее обучения и тюнинга, более чем достаточно 8битной квантизации, мало того, 6-ти и 5-битная квантизация понижает ее качество на считанные доли процентов (4-бит уже единицы процентов). Шум и галлюцинации слабых моделей значительно выше чем эти различия (например простое перефразирование системного текста или вопроса, без изменения его смысла, изменит результат значительнее).

Если тебе нужно использовать модель на python с помощью tensorflow, бери код с офф страницы модели и используй bitsandbytes. Не подскажу по тому, как раскидать модель по нескольким видеокартам тут, проектов тьма, есть даже те что работают по сети (т.е. не в пределах одной машины) типа petals.

И у тебя есть альтернатива, используй проект llama.cpp, позволяет запускать модель на процессоре (значительно эффективнее чем реализация на tensorflow) и есть поддержка gpu, одновременно нескольких и разных, причем любой, не только nvidia, плюс если vram не хватает, можно оставить часть весов в памяти и досчитывать на процессоре, что все равно эффективнее.

p.s. llama3-70b с помощью llama.cpp я запускал на процессоре с памятью 64Gb, с квантизацией 5bit, примерно 1.4токена в секунду, что все еще быстрее для англоязычных текстов чем пишет большинство людей.

Как поместить большую модель на нескольких видеокартах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт