Задать вопрос
  • Возможно ли использовать модель LLAMA-405B на обычном железе 64GB + 8GB?

    @rPman
    Да, уже считал, и это действительно реально, с относительно небольшими затратами (16-20т.р.) если тебя устроит скорость исполнения в 15-30 секунд на токен (на твоем железе llama31-70b на процессоре и 64гб оперативке будет работать токен в 1-1.5 секунд).

    Необходимо собрать самый дешевый pcie nvme ssd программный raid0, купив контроллер pcie-x16 3.0 или 4.0 из четырех разъемов nvme либо четыре pcie-4x дешевых 3.0 и закупить самые дешевые nvme ssd диски от 128гб (со скоростями чтения от 2гбайт/сек).

    Затем собрать из них raid0 с чередованием (win/linux это поддерживают) и разместить на нем gguf файл. llama.cpp поддерживает загрузку файла с весами с диска, без выделения оперативной памяти (но она нужна на контекстное окно, в зависимости от его размера это будут десятки гигабайт). Файл будет считываться по кругу целиком, по разу на токен, а значит скорость будет определяться именно этим. 2гб/с*4 диска = 8гб/с, 256гб 4бит квантизация будет считываться за 32 секунды.

    Есть еще ограничения в скорости исполнения из-за процессора, но по уму, если бы была оперативная память то типовой десктопный процессор работал бы на скорости 15-20 секунд на токен.
    Ответ написан
    7 комментариев
  • Как организовать контроль печати?

    Perkov
    @Perkov
    Можно попробовать под свои нужды "CZ Print Polisher" попробовать.
    Ответ написан
    Комментировать
  • Как настроить DNS на AWS для собственного домена?

    @bondbig
    Зациклить NS1 на NS2
    Можно, смысла большого нет. Настраивать ничего дополнительно не нужно, понятия slave/master существуют только внутри репликации между серверами, для внешних клиентов разницы нет.
    Поднимать второй инстанс только для slave NS — оправдано ли?
    ХЗ, не вижу смысла. Лучше:
    Пользоваться чужим настраиваемым slave'ом
    Тысячи их, easydns, afraid.org, яндекс, etc.
    Забить на резервирующий slave NS и в настройках домена у webn**es.ru указать только один NS — и так сойдет?
    Тоже вариант, почему нет? RFC рекомендует, но работать будет и так, все зависит от критичности этого сервиса для тебя и/или заказчика. Но лучше воспользоваться бесплатным/недорогим днс-хостингом. Если хочется крутотенюшки, то zerigo.com.
    Ответ написан
    2 комментария