Задать вопрос
@ermak148

Как обучать transformers модели на нескольких gpu?

Пока отвечается мой предыдущий вопрос про deepspeed с одной видеокартой, создам новый про несколько. Нашел очень дешевый хост для обучения сетей, ну и решил попробовать обучить gpt-2 (не обязательно, может, mixtral, например). Так вот, моделька у меня на 6млрд. параметров, ну и обычной A5000 на 24 гига.. здесь, очевидно, не хватит. Мне нужен гайд по обучению моделей torch (я обучаю не через trainer, а стандартным способом, каким обучаются остальные модельки, т.е step, forward, loss, backward...) на нескольких видеокартах, в моем случае на 2-ух A6000, а так же возможно ли (и как) это сделать с deepspeed и имеет ли смысл обучать с ним
  • Вопрос задан
  • 450 просмотров
Подписаться 2 Средний 1 комментарий
Помогут разобраться в теме Все курсы
  • Нетология
    ИИ в медицине: как использовать в работе каждый день
    8 недель
    Далее
  • Академия Эдюсон
    Нейросети в строительстве
    2 месяца
    Далее
  • karpov.courses
    Нейросети для работы
    1 месяц
    Далее
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы