Как распараллелить gpt?

Недавно для получения нового опыта решил полностью с нуля обучить модель GPT. Было решено обучить несколько моделей - 150m, 760m, 1.3B, 7B, 34B. С первыми двумя размерами модели все понятно, мой датасет поместится на видеокарточку полностью, а вот 1.3, 7 и 34B меня немножечко пугают. Почему? Потому что! Потому что
1. 34B даже сама модель на гпу не поместится
2. DataParallel не для меня. Сейчас все скажут "юзай датапараллел", а ведь если я буду использовать этот класс, то нужен DataLoader (что бы сделать батч), а данные у меня динамической длины (делаю instruct, что вы хотели), и если я не использую даталодер, а прохожусь циклом сразу по датасету (да я на голову отбитый обучаю без треинера), но загружена только одна видеокарта (я использую 2шт.)

Пожалуйста! Помогите!
  • Вопрос задан
  • 1781 просмотр
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы