Задать вопрос

ermak148 @ermak148

нейронные-сети

Как обучать transformers модели на нескольких gpu?

Пока отвечается мой предыдущий вопрос про deepspeed с одной видеокартой, создам новый про несколько. Нашел очень дешевый хост для обучения сетей, ну и решил попробовать обучить gpt-2 (не обязательно, может, mixtral, например). Так вот, моделька у меня на 6млрд. параметров, ну и обычной A5000 на 24 гига.. здесь, очевидно, не хватит. Мне нужен гайд по обучению моделей torch (я обучаю не через trainer, а стандартным способом, каким обучаются остальные модельки, т.е step, forward, loss, backward...) на нескольких видеокартах, в моем случае на 2-ух A6000, а так же возможно ли (и как) это сделать с deepspeed и имеет ли смысл обучать с ним

Вопрос задан более года назад
436 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Нетология

Data Scientist: расширенный курс

13 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 59 просмотров
0

ответов
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 249 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 551 просмотр
2

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 1 подписчик
- 01 окт.
- 416 просмотров
4

ответа
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 93 просмотра
1

ответ
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 98 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 73 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 154 просмотра
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1287 просмотров
6

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 237 просмотров
3

ответа
Показать ещё Загружается…

Chief Technology Officer (CTO)

Way to Win

от 300 000 до 450 000 ₽

Стажёр в отдел проверки персонала

ПСБ цифровая лаборатория • Москва

До 60 000 ₽

Архитектор систем

AT Systems

от 7 000 $