Задать вопрос
Ответы пользователя по тегу Нейронные сети
  • Как в comfyUi изменить текст промпта сразу в нескольких узлах?

    @rPman
    Попробуй так:

    Правая кнопка на ноде с промптом, "convert widget to input" -> "Convert text to input" и промпт можно получать как текст от других нод.

    Так делаем для каждой ноды с текстом, в который нужно копировать текст.

    Затем, для исходного промпта создаем Add node -> utils -> primitive, проводим от ее выхода коннекты до нужных нод (она сама станет текстовой)
    Ответ написан
    1 комментарий
  • Существует ли бесплатная онлайн нейросеть или программа которая из обычной статической картинки делает анимированную?

    @rPman
    Stable Video Diffusion, устанавливаете локально и пользуетесь бесплатно (не HD версии доступны даже для коммерческого использования, в т.ч. есть не только SD но и тот же Flex)

    Из инструментов 'все включено' советую stable-diffusion-webui, или тот же ComifyUI (но это скорее графический язык программирования к генерации)
    совет
    на сайтах с примерами workflow, картинку с ним можно drag-and-drop в окно интерфейса прямо из браузера, и он будет загружен автоматом

    Без видеокарты будет работать но в десятки раз медленнее, советую 12..16gb vram
    Ответ написан
    2 комментария
  • Есть ли системы озвучки текста учитывающие интонации и эмоции конкретного человека?

    @rPman
    upd. https://github.com/myshell-ai/OpenVoice
    https://github.com/jasonppy/VoiceCraft
    но ты не очень контролируешь эмоции, полагаю тут это тюнингом нужно делать
    ---------------

    Эмоциональной речью хвастались openai, но чужие голоса тюнить не дают, мало того они отключили один из своих, только за подозрения в похожести голоса на чей то популярный.

    Сам не пользовался, но по отзывам говорят звучит шикарно,.. русский само собой с акцентом.

    Серая юридическая зона! очень страшно влить миллионы в тюнинг модели и получить судебный запрет из-за копирастии всех своих продуктов... это не то что хочется получить, если у тебя на кону сотни миллиардов.

    p.s. еще этим занимались alibaba qwen, у них точно были gpt модели, где голос был на входе и на выходе, но там английский и китайский, я тоже не смотрел

    Ну и facebook чем то таким занимается, полистай их публичный архив, там есть audio-audio трансформер, но там явно без каких то значимых результатов, что бы сравнивать с топами, но все открыто
    тупо первое попавшееся, кажется это переводчик голос-голос
    Ответ написан
    Комментировать
  • LLM. Qwen2.5-Coder-32b-IQ2_XS vs Qwen2.5-Coder-14b-Q4_K_M. Что лучше?

    @rPman
    Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8b..14b использовать с квантизацией меньше 8бит, да и с ней будут проблемы

    Лучшая локальная модель, с адекватным размером, на текущий момент - это дистиляция deepseek r1 какой-нибудь qwen 14b или 32b

    Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек

    deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным.

    Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на 'количество братьев у сестры' могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.
    Ответ написан
    Комментировать
  • Нейросеть или ИИ для создания изображений сайта дизайнов?

    @rPman
    таких не существуют

    есть нейронки текст+изображение -> текст (а тебе нужно текст+изображение -> текст+изображение), но на рабочие задачи там 50 но 50, то не работает, то фигня получается.

    нейронки, которые генерируют изображения даже близко к ИИ не подошли, это просто красивые галлюцинации.
    Ответ написан
  • Возможно ли точно вычислить степень влияния ИИ в книгах и кино?

    @rPman
    К сожалению универсального ответа нет.

    Затраты на создание адекватного детектера генератора ИИ сравнимы с созданием этого ИИ. Но хуже того, как только такой верификатор появится в доступе, на нем сразу начнут обучать ИИ что бы он его обходил, это не сложно, так как обучающая выборка будет крохотной - тысячи.. десятки тысяч статей,.. от этого не защититься.
    Ответ написан
    Комментировать
  • Какая нейросеть умеет сопоставлять два списка?

    @rPman
    Я во времена первой llama делал такую работу на ней, хорошо проработанный запрос, список типов запчастей (это справочник) к промпту и по одной записи из списка запчастей, и повторять для каждой

    На процессоре тогда он по 20-30 секунд отрабатывал запись, несколько тысяч за несколько часов.

    Весь процесс нужно сохранять и отслеживать, корректируя промпт, помню у ламы тогда была проблема с финишным токеном, после ответа она могла продолжить разглагольствовать, это тоже решаемо но нужно все это учитывать.

    Сейчас у llama.cpp есть поддержка kv-кеша (не смотрел), и уж точно эта поддержка есть у топовых openai/anthropic/google, тогда каждый запрос у тебя будет моментальный, и токены тратиться только на название запчасти и ответ.

    Хуже, если справочник в запрос не влезет (ориентируйся на 8к токенов, джаже топовые модели нормально только в пределах этого окна работают, хотя хз может уже все гораздо лучше стало, просто проведи тесты), тут есть варианты - можно по хардкору расписать вектора смысла (embedding) для каждого значения справочника и разделить справочник на части таким образом, что бы близкие по смыслу значения были рядом, а далекие - в другой части, и тогда для каждой запчасти делать несколько запросов с разными списками из справочника...

    да это долго, но простого решения тут нет, человек делать это будет еще дольше
    Ответ написан
    Комментировать
  • Как конвертировать модель в GGUF и квантовать?

    @rPman
    На самой странице модели есть пример кода на python или ссылка на github или докер образ, как ее использовать, обычно там же простым способом можно квантовать 8бит (более чем достаточно для исполнения, быстро, минимальные требования vram и без потери качества)

    Есть проект vllm, в котором поддержку универсально пилят для всех топовых моделей, попробуй его, у него же встроен веб сервер, а так же веб сервер с совместимым openai api, а там 100500 локальных вебморд для использования.

    p.s. только llama.cpp эффективно умеет работать на процессоре и главное использовать gpu и обычную память одновременно (например не хватает считанных гигабайт)
    Ответ написан
    Комментировать
  • Что выбрать за архитектуру LLM для обучения с нуля?

    @rPman
    У тебя ошибка в постановке цели - 'обучить с нуля'.

    llama3 обучалась на 15Тера-токенах, это примерно на три порядка больше чем в твоих гигабайтах, этого катастрофически мало, для того что бы что то внятное получилось.

    Для обучения модели, по мощности сравнимой с gpt3.5 нужно 10^26 степени flops (очень приблизительная оценка, скорее всего занижена, так как все очень зависит от использованного оборудования), посчитайте необходимое количество GPU и энергии, для того что бы достичь этого объема вычислений (для примера бери nvidia a100 80gb считая что ее мощность 20tflops это 2*10^13, да так считать не правильно, и в зависимости от задач число можно как увеличивать в 20 раз так и уменьшать в разы).
    ------------

    Что можно сделать и почему скорее всего это то же не получится и почему это тоже будет дорого - можно взять уже обученную (модели с пометкой completion а не instruction) модель и дообучить на своих данных. Если делать это в лоб то качество работы результата значительно упадет, если исходные данные будут хоть немного противоречить (не совпадать) с изначальной обучающей выборкой (есть алгоритмы анализа обучающей выборки на сравнение с исходной).

    НО! Ни одна компания, создающая топовые модели не делится исходными данными (это похоже стало по цене сравнимо с затратами на вычисления), а те что делятся - очень слабые, хуже openai gpt3.5 это уже давно стало минимальным эталоном, все что хуже не будет адекватной instruction.

    Единственное, где finetuning еще как то можно использовать, - это доработка формата ответа (обучающую выборку собирают в купе с ответами самой модели или анализируя эти данные с ее помощью), а так же для фиксации направления использования (не instruction), например превратить модель в классификатор, ты ей текст, а она тебе ответ - типа сообщение содержит хейт, например буквой ответит).

    После тюнинга модели на своих данных, ее нужно продолжить дообучать (из gpt35 так сделали gpt4), с помощью RLHF, это когда куча не дешевых людей (потому как дешевых уже давно заменяют другой моделью, например openai) анализируют ответы и помечают где модель ответила правильно а где нет, еще лучше когда дают оценку, или выбирают лучший из нескольких.

    Т.е. тебе нужна база вопросов, это еще одна обучающая выборка (специально подготовленная), скорее всего это еще одна причина, почему существуют сайты типа чат арены, где 'за бесплатно' у народа собирают огромную базу вопросов и их бенчмарков.

    p.s. резюмирую, если у тебя в кармане нет порядка $10кк а скорее всего в десятки раз больше, то 'с нуля' обучать свою модель у тебя не получится.

    В мире не так много компаний которые в принципе на это способны - в россии например на это способны богатейшие только сбербанк (гигачат) и яндекс (yandex gpt), последние этим занимаются давно (за долго до появления chatgpt) и единственная их проблема - не хватает денег (и блокировка доступа к покупке оборудования), и возможно специалистов.
    Ответ написан
    7 комментариев
  • Возможен ли запуск нейросети на видеокарте для майнинга?

    @rPman
    Есть шанс нарваться на проблемы с драйверами, ограничивающими использование видеокарты, но почему бы и не попробовать?

    Если есть opencl запустить то можно, с помощью llama.cpp можно запускать на любой видеокарте, причем даже если она не nvidia, и на встройках.. вопрос на сколько быстро это будет.

    И только смысла в этом нет, потому как главное у видеокарты должен быть большой объем оперативной памяти... 8b модели и так слабые, они сильнее реагируют (ухудшают качество) от квантизации, поэтому из меньше 8бит не квантуют, т.е. минимум только на веса 8гб, а еще на контекст нужно несколько гигабайт.

    С другой стороны, закупить несколько, весь софт для выполнения умеет распределять нагрузку по нескольким.
    Ответ написан
    Комментировать
  • Какая нейросеть оживляет картинки?

    @rPman
    Stable video diffusion, будет работать на 12-16gb gpu (например nvidia gtx 4060ti стоит 59т.р., а 3060 12гб - 35т.р. ), работает неплохо, но на сколько я знаю он работает от картинки а не запроса (т.е. если ты задаешь запрос, она генерирует из него только стартовать картинку).

    Облачные ресурсы дороже на порядок, как ни крути.

    Кажется Runway позволяет платить через alipay в России.

    p.s. Кандинский от Яндекса ты не использовал?
    Ответ написан
    Комментировать
  • Сравнение голосов - программы и нейросети - есть ли такие?

    @rPman
    https://huggingface.co/models?other=speaker-recognition как отправная точка для поиска готовых моделей (можно поиграть с поисковым запросом)
    Ответ написан
    1 комментарий
  • Может ли нейросеть определить на изображении отсутствие всех объектов, кроме одного?

    @rPman
    У нейроситей коассификаторов, тех что используют для распознавания изображений не очень хорошо с понятием 'неизвестно' или 'все остальное'. Сеть должна при обучении видеть все объекты... Если с этим все нормально то можно обучить такой классификатор... Я принципы и методология вся та же самая
    Ответ написан
    Комментировать
  • Какая нейросеть умеет в веб-дизайн?

    @rPman
    Адекватных и универсальных мультимодальных ИИ (с модальностью - изображения) на текущий момент не существует.

    С очень большой натяжкой можно считать топовые openai/claude/google/(может китайский qwen но они совсем внизу), с поддержкой изображений подходящими, в интернете даже гуглятся тестовые helloworld, но проблема в том что когда доходишь до реального использования, сил на то чтобы объяснить ИИ что тебе нужно и исправлять его ошибки уходит БОЛЬШЕ чем если бы ты делал это сам.

    ИИ на текущий момент подходит как удобный помощник, делать что-либо что ты сам умеешь прекрасно делать, понимаешь как это понимает ИИ (мы в голове строим модель знаний нашего собеседника, чтобы не скатываться в объяснения алфавита, так вот то же самое и с ИИ, мы должны понимать что они понимают и до какой степени) и используешь его для ускорения./. плюс как замена поисковика (только не по всему интернету, а в пределах его знаний, очень мало какие продукты дают адекватный поиск в интернете).
    Ответ написан
    Комментировать
  • Компьютер с какими характеристика требуется для комфортного использования llama3.1:405b?

    @rPman
    Нужны видеокарты, суммарным объемом 1024гб. тут только специализированные, найти в продаже в странах под санкциями нереал, рынок пустой был уже в 2020-ом. Цены тут 5х от мировых.

    Квантизация тут тоже есть, vllm самая эффективная реализация, поэтому если тебе не нужно дообучать, а только исполнение, то пойдет 8bit квантизация.
    -------

    На процессоре с помощью llama.cpp, где-нибудь 10-20 секунд на токен (кстати повышается в несколько раз при batch запросах, когда тебе нужно обработать сразу много prompt-ов).

    Тебе нужна серверная материнка (хоть прошлого поколения, важна оперативная память), размер памяти минимум 256гб (4битная квантизация, потеряешь в качестве), лучше 512гб. К сожалению рынок тут только БУ со всеми вытекающими от сюда ценами и гарантиями.
    --------

    Можно запускать на нескольких десктопах!
    Год назад в llama.cpp портировали MPI реализацию, поддержка запуска на нескольких нодах (как пример нам было 8 raspberrypi и llama65b) поэтому приобрести 4 компьютера по 64-128гб не проблема, процессор не самый топовый, какой-нибудь AMD Ryzen 5 9600X/7600X (6-ядерный, лучшая производительность singlethread дешевле $300/$200), на сколько я понял, упирается все в сеть, поэтому сверху 10Gb ethernet адаптеры в придачу (они относительно дешевые).

    Каждый из компьютеров обойдется примерно в 100т.р. (можно ужаться и набрать по 70т.р. но там и процессоры по слабее и память по медленнее, но не значительно), и таких нужно 3-4 штуки.

    Сетевые карты 10G покупать парами, объединить в круг (это самый дешевый конфиг). Иначе, еще вложиться в свитч примерно такой же стоимости. Если честно я не нашел информации или каких то расчетов, которые скажут требования к сети, очень даже может быть что хватит встроенных в материнку и гигабитного свитча, речь идет об оптимальной утилизации процессора и памяти.
    --------

    Есть еще один экстремальный вариант, он не требует почти никаких особых затрат, любая даже самая слабая железка с любым количеством RAM (пусть условно 16гб-32гб будет, контекст хранить нужно) но с максимально быстрым ssd nvme диском (или несколькими в raid0). llama.cpp штатно умеет работать с моделями напрямую с диска (mlock режим), будет считывать всю модель по одному разу на каждый токен.

    Например 4 ssd диска (проходной apaser за 2.5т.р. но лучше что то по быстрее с pci-e 4.0) на скорости 2гбайта/с (само собой есть быстрее) с соответствующими pci-e контроллерами обойдутся в считанные 16-25т.р., полученный 'монстр' будет считывать всю модель с 8битной квантизацией за 30-15 секунд, и уже вопрос, успеет ли процессор на такой скорости модель считать.

    p.s. осторожно, ssd на 'чтение' тоже не бесплатно работает, это тоже изнашивает ресурс, только не так быстро как запись, может в тысячу раз медленнее, может в десятки тысяч.
    Ответ написан
    6 комментариев
  • Как загрузить файл через API в диалог Claude?

    @rPman
    превышается максимальное количество токенов

    Никак, придется делать что то с файлом, что бы он влез в контексте окно.

    Человек точно так же не сможет переварить за один раз большой объем информации, llm-ки тут наследовали эту ограниченность и невнимательность.

    Самое простое, если исходные данные можно разделить, и они независимые, можно поделить исходные данные на части и вызвать для каждой части тот же самый промпт, полученные ответы затем собрать в новый промпт, плюс старый, и получить ответ.

    Можно воспользоваться самморизацией, когда части файла заменяются на их укороченные версии, и этот упрощённый файл отправляется как запрос... это логично объединить с предыдущим методом.

    Тупой пример - у вас есть исходники приложения, которые нужно проанализировать, суммарный объем значительно превышает контекстное окно. Вы разбиваете из на методы/классы/исходные файла (выбор степени и способа разбиения отдельная не простая задача) затем по каждому куску проводите анализ отдельным запросом, который самморизует информацию в нем (например попроси описать хелп по методу, короткое описание что метод делает и какие входные параметры) и объединив их в один файл, чтобы он влез в окно контекста, уже задавал вопросы.

    Метод/класс/файл это не 'или', собирать информацию нужно параллельно на всех уровнях.

    Можно итеративно задавать ИИ вопросы, добавив, информацию о каком методе/классе/файле необходимо для ответа на вопрос, замена этот уменьшенный кусок на исходный файл. Речь не идёт о непрерывном чате, внутри каждый запрос это полное окно контекста и лучше самому выбрать, что именно в него должно попасть, т.е. каждый раз формируется новый запрос .. но так как облачные ИИ стали добавлять управление кешем, можно создать несколько сессий, одни собирают информацию по частям, задавая разные вопросы к одному и тому же стартовому контексту, другие работают с агрегированной информацией, третьим с человеком...
    Ответ написан
    2 комментария
  • Возможно ли написать свой chatGPT и как?

    @rPman
    Для начала, llm-ки, начинают показывать свойства ИИ (т.е. начинают строить внутри себя модель, которая уже начинает себя как то вести а не просто синтаксически и даже логически обоснованный бредогенератор, т.е. хуже gpt35 если что) - это 10^26 flops вычислений, оценка приблизительная, когда читал про исследования на каких величинах это начинается, погрешность была на пару порядков. Мало того, десктопное железо тут не подходит, там требуется огроменное количество оперативной памяти GPU (про CPU даже не заикайся, на нем даже просто запуск - садомазохизм).

    Посчитаю за тебя - одна современная видеокарта 4090 дает 80Тфлопс (даже пусть 100 но так неверно, потому что реалии на пару порядков хуже но проигнорируем это) это 10^14 операций в секунду, т.е. только чтобы однократно обучить одну llm (а это обычно делают много раз, меняя гиперпараметры и обучающие данные) тебе потребуется 10^(26-14) секунд или 10^12 секунд или 31709 лет на одной видеокарте... приобретая чуть больше видеокарт, процесс можно ускорить почти линейно (да там начинаются проблемы уже на тысячах gpu, но они решаются спец-железом, спец-алгоритмами и спец-специалистами, и главное первое и последнее с рынка как коровой слизали крупные компании)... к сожалению эта наиважнейшая и самая крутая технология нашего времени требует минимально для старта десятки миллионов баксов вложений а лучше сотни.

    Но если все же хочешь взять готовое, разобраться и предоставить это как ваша работа то пожалуйста, гугл: gpt llm training from scratch detailed guide
    первая же ссылка - https://youssefh.substack.com/p/training-gpt-2-fro...
    Ответ написан
    2 комментария
  • Какие могут быть возможные причины изменения ответа LLM на один и тот же запрос?

    @rPman
    Это основа работы алгоритма llm gpt.
    При выборе следующего токена ответа, алгоритм выбирает не тот что с большей вероятностью , это параметр temp=0 (это стабилизирует ответы но значительно ухудшает из качество) а с некоторым разбросом, чем выше temp тем больше разброс выбора и 'креативность' ответа, чаще это вода в тексте, так как с ней проще разнообразить.

    На сколько я помню если нужно и temp выше 0,и стабильность, то фиксируй seed генератора случайных чисел...
    Ответ написан
    1 комментарий
  • Вопрос про настройку LLM сетей?

    @rPman
    Тебя не смущает что до сих пор не сказал нам что за проект используется и почему не взглянул на его исходники?, Как окружающие должны понимать с чем ты работаешь?

    p.s.
    скрывались за модификатором доступа private

    доступ к private members имеют ваши методы, в вашем классе, порожденном от целевого, это почти не зависит от языка программирования и используют даже там где классов в привычном понимании нет.

    p.p.s. по названию свойств могу догадаться (я же почти телепат), что используется llama.cpp, только там я видел выбор mirastat алгоритма как опция
    Советую полистать хелп к llama.cpp llama-cli (раньше он назывался main) llama-cli --help там все это есть но чуть чуть названное по другому. Напомню что llama.cpp все еще разрабатывается, документация к нему не всегда понятна а многие вещи приходится вытаскивать из issue и discussion проекта на github и даже из исходников.

    p.p.p.s. если лень читать, скопируй этот хелп в запрос llm-ки и добавь вопрос в конец, спросив что то типа
    в проекте использовались следующие переменные (перечисли переменные), названные похожим образом как указано в этом файле помощи, покажи какие именно ключи имеют название, соответствующие переменным и переведи описание на русский язык


    upd. я сделаю это за тебя, спросив у бесплатного anthropic
    claude.ai
    Исходя из содержимого файла помощи, следующие ключи соответствуют указанным переменным:

    1. SamplingPipeline: Возможно, `--samplers` и `--sampling-seq`
    2. PenalizeNL: `--penalize-nl`
    3. MirostatEta: `--mirostat-lr`
    4. MirostatTau: `--mirostat-ent`
    5. Mirostat: `--mirostat`
    6. PresencePenalty: `--presence-penalty`
    7. FrequencyPenalty: `--frequency-penalty`
    8. RepeatLastTokensCount: `--repeat-last-n`
    9. RepeatPenalty: `--repeat-penalty`
    10. Temperature: `--temp`
    11. TypicalP: `--typical`
    12. TfsZ: `--tfs`
    13. MinP: `--min-p`
    14. TopP: `--top-p`
    15. TopK: `--top-k`
    16. AntiPrompts: `--cfg-negative-prompt` или `--cfg-negative-prompt-file`
    17. LogitBias: `-l`
    18. MaxTokens: `-n`
    19. TokensKeep: `--keep`

    Описание на русском языке:

    1. `--samplers`: Выборочные алгоритмы, которые будут использоваться для генерации в указанном порядке, разделенные `;`.
    2. `--penalize-nl`: Наказывать токены новой строки (по умолчанию: false).
    3. `--mirostat-lr`: Коэффициент обучения Mirostat, параметр eta (по умолчанию: 0.1).
    4. `--mirostat-ent`: Целевая энтропия Mirostat, параметр tau (по умолчанию: 5.0).
    5. `--mirostat`: Использовать выборку Mirostat. (по умолчанию: 0, 0 = отключено, 1 = Mirostat, 2 = Mirostat 2.0).
    6. `--presence-penalty`: Штраф за присутствие повторяющейся последовательности токенов, альфа (по умолчанию: 0.0, 0.0 = отключено).
    7. `--frequency-penalty`: Штраф за частоту повторяющейся последовательности токенов, альфа (по умолчанию: 0.0, 0.0 = отключено).
    8. `--repeat-last-n`: Последние n токенов, которые необходимо учитывать для наказания (по умолчанию: 64, 0 = отключено, -1 = ctx_size).
    9. `--repeat-penalty`: Наказывать повторяющуюся последовательность токенов (по умолчанию: 1.0, 1.0 = отключено).
    10. `--temp`: Температура (по умолчанию: 0.8).
    11. `--typical`: Локальная типичная выборка, параметр p (по умолчанию: 1.0, 1.0 = отключено).
    12. `--tfs`: Выборка без хвостов, параметр z (по умолчанию: 1.0, 1.0 = отключено).
    13. `--min-p`: Выборка min-p (по умолчанию: 0.1, 0.0 = отключено).
    14. `--top-p`: Выборка top-p (по умолчанию: 0.9, 1.0 = отключено).
    15. `--top-k`: Выборка top-k (по умолчанию: 40, 0 = отключено).
    16. `--cfg-negative-prompt`: Отрицательный подсказка для использования для направления (по умолчанию: '').
    17. `-l`: Модифицирует вероятность появления токена в завершении.
    18. `-n`: Количество токенов для предсказания (по умолчанию: -1, -1 = бесконечность, -2 = пока не заполнится контекст).
    19. `--keep`: Количество токенов для сохранения из начальной подсказки (по умолчанию: 0, -1 = все).

    затем по каждому делай запрос отдельно, добавляя что это утилита по inference llm и что может значить соответствующая опция, пример:
    spoiler
    в приведенном help файле были ключи приложения для запуску большой языковой модели ии на своих мощностях llama.cpp, что может значить ключ --temp
    ответ:
    В контексте параметров большой языковой модели ИИ --temp означает температуру (temperature) для алгоритма сэмплирования при генерации текста.

    Температура - это гиперпараметр, который контролирует степень "вероятностности" или "креативности" выходных данных модели. Более высокие значения температуры приводят к более разнообразным и непредсказуемым результатам, в то время как более низкие значения делают выходные данные более предсказуемыми и сосредоточенными на наиболее вероятных токенах.

    Например:

    - Низкая температура (например, 0.2) заставит модель генерировать текст, который более "осмысленный" и склонный к использованию самых вероятных следующих токенов согласно модели.

    - Высокая температура (например, 1.0 или выше) позволит модели генерировать более "креативный" и разнообразный текст, но с большей вероятностью семантических ошибок и непоследовательности.

    Таким образом, значение --temp 0.8, указанное по умолчанию в помощи, задает относительно умеренную температуру сэмплирования для баланса между связностью и разнообразием генерируемого текста.

    --mirostat

    `--mirostat` - это ключ командной строки, который управляет использованием алгоритма выборки Mirostat при генерации текста с помощью большой языковой модели в llama.cpp.

    Mirostat (Minimial Regret Optimal Sampling for Text) - это алгоритм выборки для условного генерирования текста, который пытается находить оптимальные завершения с минимальным сожалением (regret) по отношению к заданной функции штрафа.

    Значения этого ключа:

    - 0 (по умолчанию) - отключает использование Mirostat, и вместо этого используются другие указанные алгоритмы выборки, такие как top-k, top-p, повторные штрафы и т.д.
    - 1 - включает использование оригинального алгоритма Mirostat.
    - 2 - включает использование улучшенной версии Mirostat 2.0.

    Когда Mirostat включен, он в основном игнорирует другие параметры выборки, такие как top-k, top-p, tail-free sampling и типичная выборка. Вместо этого он динамически адаптирует распределение выборки на основе целевой функции, используя обучение политики.

    Два важных гиперпараметра для Mirostat:

    1) `--mirostat-lr` (learning rate) - скорость обучения для алгоритма.
    2) `--mirostat-ent` (target entropy) - целевая энтропия выходного распределения.

    Использование Mirostat может улучшить качество и согласованность генерируемого текста по сравнению с более простыми эвристическими алгоритмами выборки, но требует дополнительных вычислительных ресурсов.


    не пытайся спрашивать сразу обо всем, данных будет много, они превысят адекватные размеры контекста и начнутся глюки

    ВАЖНО: важнейший навык, который может понадобиться в ближайшие годы наверное любому человеку, хоть как то работающему с информацией, и тем более программистам, это умение работать и понимание недостатков современного ИИ, хотя бы на базе chatgpt или других компаний.
    Это похоже становится даже важнее чем гуглить (но не вместо, потому что современный ИИ все еще тупит и может напридумывать чуши), поэтому учиться учиться и еще раз учиться.
    Ответ написан
    Комментировать
  • Возможно ли выгрузить часть слоёв в VRAM видеокарты AMD, если основная - NVIDIA?

    @rPman
    Да, но поддержку пилить придется самому.

    Например llama.cpp есть поддержка нескольких видеокарт, на сколько я знаю есть возможность с разными вендорами через opencl.

    Там есть библиотека ggml, чтобы свои сети пилить и даже конвертировать их их pytorch
    Ответ написан
    Комментировать