Пользователь пока ничего не рассказал о себе

Наибольший вклад в теги

Все теги (3)

Лучшие ответы пользователя

Все ответы (2)
  • Кто-нибудь запускал llama 3.1 405b?

    @d00m911
    Сэкономить на ресурсах, жертвуя быстродействием, можно: следует смотреть в сторону квантованных моделей. Квантование позволяет в разы уменьшить количество требуемых ресурсов (видеопамяти или оперативной памяти), снижая качество выдачи.

    Но дома такую модель точно не запустить (если у вас дома, конечно, нет батареи хотя бы из 3090). В решении повседневных задач неплохо себя показывают модели 70b (или даже с меньшим количеством параметров - взять хотя бы Codestral 22b) особенно потому, что их гораздо легче и быстрее дообучать. 405b - мне кажется, это для компаний скорее, которые могут себе позволить купить нужное оборудование.

    Нет, никто не мешает вам купить, скажем, старый сервак с 512 гб ram, но это будет работать невероятно медленно. И все равно придётся квантовать модель, и сильно)
    Ответ написан