Надоело мне значит обучать свой gpt кусками на cpu по 5 часов в день (так как видеокарточка на 4 гига). Статьи про DeepSpeed утверждают, что на gpu можно положить в 10 раз больше параметров, нежели чем при обычном обучении, но внятного ответа на вопрос "как обучить gpt (или другие сети на pytorch) с помощью deepspeed на винде, а так же желательно получить обещанные 10xПараметров" не нашел
Везде либо статьи для линукса, либо различаются по принципу использования: huggingface в документации пишет про какой-то класс в трансформерсах, где то пишут про команду deepspeed "gpt2" "train.txt" (подобное). Ну и я никак не пойму, так как же все таки правильно запустить дипспид у себя на пекарне? (Если будете писать про то что 4 гига даже с дипспидом мало - то я вам отвечу, что в крайних случаях gpu хосты никто не отменял)
deepspeed это про обучение на кластере, т.е. вместо покупки одной дорогой серверной видеокарточки, ты поднимаешь кластер из дешевых десктопных и по уму должен получить экономию в деньгах.