Если вы собирались крутить модель, у которой веса одни только весят что-то около 400гб в квантизации Q4 (то есть со сжатием) на CPU, то вам все равно понадобится под 700гб RAM и вы получите скорость генерации 2-3 токена в секунду, что по факту слишком медленно хоть для какого-то использования
Так что на 1.5тб VRAM вы ничего там дообучить не сможете даже в теории
Евгений Орлов
@Mentalitet Куратор тега Искусственный интеллект
Все языковые сетки - это машины, предсказывающие следующий токен с некоторой вероятностью (то есть каждый возможный токен имеет вероятность на выходе и из этих вероятностей сэмплируется следующий токен)
Это означает, что если "карты так лягут", то он может иногда нагенерить мусор
Чтобы управлять качеством генерации, можно изменять параметры генерации
Например, температура - высокая температура приводит к тому, что редкие и маловероятные токены выбираются с большей вероятностью. При слишком высокой температуре (больше 1) генерация будет походить на мусор
Также, смешение нескольких языков в промпте и данных может иногда приводить к перескакиваниям и ухудшениям вывода
Написано
Войдите на сайт
Чтобы задать вопрос и получить на него квалифицированный ответ.
для макс версии deepseek-r1 671b без квантизации нужно ~1,342gb VRAM чисто для инференса
Вот вам ссылка с подтверждением
https://dev.to/askyt/deepseek-r1-671b-complete-har...
Если вы собирались крутить модель, у которой веса одни только весят что-то около 400гб в квантизации Q4 (то есть со сжатием) на CPU, то вам все равно понадобится под 700гб RAM и вы получите скорость генерации 2-3 токена в секунду, что по факту слишком медленно хоть для какого-то использования
Так что на 1.5тб VRAM вы ничего там дообучить не сможете даже в теории