Ответы пользователя rPman по тегу «ChatGPT»

Как отвязать устройство от ChatGPT?

rPman @rPman

Задавай вопрос не о том как решить одну из промежуточных проблем, а какую именно задачу решаешь?

Если изначальная задача - получить доступ к современному искусственному интеллекту в России, то она решается:
1. топать к китайцам (доступны в россии)
* www.deepseek.com , уровень сравним с топовыми (может медленнее), где то даже бесплатно
* chat.qwen.ai, активно не пользовался, на среднем уровне
у обоих есть и веб и мобильные приложения, работают без проблем.
Возможно будет не просто оплатить (доступно в россии через alipay)
2. долго и упорно бодаться с роботами, выявляющими посредников и топать к google/openai
* вам нужен мобильный номер, вне стран блокировки
* вам нужна банковская карта visa/mastercard вне стран блокировки
* вам нужен vpn, вне стран блокировки
* на android еще нужно будет сменить регион на не россия, часто это не сделаешь, а если гугл увидит что вы жульничаете, сменит его автоматически
в некоторых случаях можно воспользоваться посредниками, никого не посоветую, мой опыт не очень успешный (банк карта посредники крали деньги, мало но 10$ есть 10$, чужие мобильные работали не долго, а vpn я и сам настрою)
Проблема в том что тот же гугл/openai финансово заинтересован не кормить халявщиков, они уже вскормили deepseek (по слухам большую часть обучающих данных компания нагенерировала с помощью openai, правда там было еще куча крутых решений по оптимизации расходов на дообучение чуть ли не на пару порядков дешевле, так что они все равно круты) и продолжать кормить конкурентов они не хотят, поэтому палки в колеса будут вставлять так или иначе и любые решения будут не долговечны
3. найти посредника, который решил большую из этих проблем и заплатить ему
* так как openrouter.ai предоставляет большую часть нужного в готовом виде (к сожалению без realtime api и генерации изображений, но мне нужен был только api), я их прорекламирую. Для работы требуется любой vpn/прокси (я арендую vps-ку и использую socks прокси на базе ssh -D1080 стоимость смотреть тут lowendstock), оплата в криптовалюте (извините но наша страна превращается в северную корею, и без vpn и без криптовалюты ну просто никуда)
Будут доступны топовые модели (например openai:gpt-4.1 со встроенным поиском по интернету, или openai:o3 с размышлениями, или anthropic:claude sonnet 4, или гугловские gemmini pro... и вообще любые открытые что бы перед тем как решать, стоит ли их локально использовать, протестировать)
4. запустить локально
* к сожалению, даже со всеми возможными ухищрениями deepseek r1/v3 локально потребуют порядка 400гб ram при скорости генерации единицы токенов в секунду, что даст ответ через десятки минут (а рассуждения - порядка часа), можно запускать с ssd, тогда пойдет вообще на любом железе со скоростью порядка 0.1 токен в секунду (но можно делать одновременно десятки-сотни запросов, поднимая итоговую суммарную скорость до тех же единиц-десяток токенов в секунду), особого смысла в этом извращении я не вижу, но возможность есть
* использовать слабые локальные модели, которые милостливо стали доступны от топов бесплатно. На текущий момент лучшие (требуют порядка 64гб ram это практически всем легко доступно):
* microsoft phi4 и phi4-reasoning (есть еще multimodel но ее качество я не пробовал и не запустить ее типовыми утилитами)
* qwen3-30b-a3b она же простая она же reasoning, очень интересная модель, быстрая на процессоре, средняя по качеству
* gemma3-27b/14b мультимодальная, требует +24gb ram

самое простое запускать с помощью lmstudio на компьютере, он же скачает, настроит, запустит, предупредит чего не хватает и т.п, красивый интерфейс,.. он дает openai совместимый api, есть куча готовых мород, включая встроенную (там просто доступ по умолчанию только 127.0.0.1:1234 но вроде бы в виндовой версии можно менять), это значит можно настроить заранее vpn до дома и с мобильника открывать свой ИИ

Ответ написан 07 июн.

10 комментариев

Обнаружила что очень мало литературы по LLM?

rPman @rPman

GPT ИИ к сожалению это именно магия, на основе детерминированной математики получили не детерминированный результат, который симулирует человеческий ИИ, и который даже можно попытаться использовать

Сильные версии gpt (старше openai:gpt3.5) можно попросить словами дать ответ в json, и так же словами или стандартными способами описания форматов, прямо в запросе... результат будет с некоторой вероятностью не верным, это фича и боль gpt

Некоторые провайдеры позволяют указать, например openai structured outputs или у открытой llama.cpp grammars (это фича программы для запуска ИИ а не моделей), позволяющие описать ограничения на формат ответа, соответственно для json есть готовые описания, можно даже ограничить в значениях (там есть свои нюансы, так как одно и то же слово можно описать разными токенами), это позволит гвоздями прибить ответ модели к требуемому формату, ценою понижения качества результата (но в каких то случаях - повышения), ответ можно получить только экспериментами на своих данных.

По поводу как решать задачи с поиском слов, приведи по больше примеров, наилучший на текущий момент из подходов, это multi shot, где ты даешь модели последовательностью "системный промпт - пример вопрос - пример ответ - пример вопрос - пример ответ - вопрос -" и она выдает ответ, чем больше и лучше будут примеры, тем выше качества ответа. Системный промпт должен быть максимально подробным и содержать всю необходимую для принятия решения информацию, не надеясь на знания модели (их у нее так много что это мешает)

Осторожно, gpt очень плохо работают с данными, когда нужно из большого объема вытаскивать большой объем, например формировать список, чем больше будет данных, тем выше вероятность что модель что то пропустит или еще хуже, добавит что то от себя. Лучшим способом будет режим чата - когда после системного промпта идут которткий кусок данных, и в виде ответа модели - сообщение о наличии или отсутствии в нем искомых данных, соответственно подавая исходные данные по частям, модель будет давать ответ тут же, а так же видеть предыдущие варианты как пример multishot... Но чем больше данных будет в чате, тем хуже может быть, так как данные могут быть однобокими, что может испортить качество результата.. т.е. нужен механизм фильтрации, какие предыдущие данные сохранять в чате (критерий - уникальность, разруливание спорных случаев, исправление ошибок модели при ручной модерации и т.п.). Так как большинство провайдеров умеют кешировать начало промпта (тарифицируя эти токены значительно дешевле), такой подход может быть значительно эффективнее чем если делать один запрос со всеми входными данными.

Наилучший на текущий момент способ улучшения качества ответа - за счет экспоненциального роста затрат, это повтор вопроса (при случайном seed), сбор статистики ответов и выбор наиболее вероятного. Т.е. делаешь 16 одинаковых запросов, получаешь 16 разных ответов, выбираешь повторяющиеся чаще всего как верный ответ... увеличивая в 2 раза количество запросов, ты поднимешь качество ответа на условный процент, рост не бесконечный, обычно где то на тысячах попытках рост из линейного становится 'пологим'. Не нужно надеяться на то что если ответ - в последнем токене и можно просто тысячу раз его сгенерировать (кстати это можно вытащить из logits токена, там прямо список вероятностей лежит), важно именно рассуждения по разному запускать.

Второй способ улучшения качества ответа достаточно абсурдный, - используя модели с возможностью к рассуждениям (reasoning или thinking) можно, увеличивая размер области рассуждений в токенах, можно так же увеличивать качество, вот пример зависимости от последней открытой qwen3 moe модели:

spoiler

тут по оси X - размер области в тысячах токенов, а по Y метрика качества в процентах где 100% - идеально

Ответ написан 30 апр.

Комментировать

Какая модель ChatGPT лучше?

rPman @rPman

Как энциклопедия, chatgpt наихудший инструмент, в него запихали столько знаний, что 'ему бошку сносит' из-за этого, галлюцинации собствено от сюда, и это похоже фича трансформера. И да, не верьте уже маркетингу, помните в каком веке вы живете, в веке победившей лжи.

Если тебе нужна энциклопедия, то тебе нужны инструменты GPT с RAG, с индексацией базы знаний (чего в принципе очень дорого, мало сомневаюсь что кто то будет делать это на универсальных доменах знаний, но если найдете то дайте знать).

Лучшая на текущий момент модель это openai gpt 4.5, у нее по заявлению openai наименьший индекс галлюцинаций, и знаний в нее запихали 'маманигорюй'. o1/o3 модели это рассуждающий файнтюн gpt4o (наверное ждем o5 на базе 4.5), рассуждения позволяют уменьшить вероятность косяков, лучше понимать контекст и позволяет находить новые пути решений (были исследования где пытались заставить модель именно изобретать новое, там куча агентов друг с другом общалась, перепроверяли друг друга и т.п.... в общем продвинутый reasoning)

Из готовых инструментов, способных работать с данными (интернет) это их собственный deep research (доступен за $200 в месяц, но кажется попробовать можно и на меньших тарифных планах).

Ну и если хочется здесь и сейчас и 'по дешевле', то составляй план исследования, по отдельности каждый шаг прогоняй через гугл, скармливай содержимое найденное в контекст модели, проси выделить важное для твоей задачи, повторяй по кругу, пока сама модель или ты сам не скажет что информации достаточно.

Я смотрел разные открытые deep research реализации, все они корявые, что то не то получается. Скорее всего перед созданием такого инструмента, нужно предварительно проанализировать интернет, выделить под каждый домен знаний свои списки источников,... ну а если тебе наука нужна, то будь готов работать с многотерабайтовым arxiv.org

p.s. что вы все хотите от моделей, которым еще далеко до Общего ИИ? они только в некоторых задачах хороши (чаще в качество/стоимость), сейчас это мощный инструмент, с которым нужно очень серьезно работать, что бы хоть что то получить.. с ним лучше всего понимаешь утверждение - 'для того что бы задать вопрос, нужно знать половину ответа'

Ответ написан 23 мар.

Комментировать

ChatGPT и Github. Можно ли совместить?

rPman @rPman

Лучшая на текущий момент по соотношение качество/цена в задачах программирования это Anthropic Claude Sonnet 3.7, в частности у них заявлен Computer Use for coding, приложение, в котором вы отдаете компьютер под управление модели (подключаемой по api) и командуете ей, и она выполняет команды, смотрет вывод, решает проблемы и т.п.

Сам не пробовал, так как я использую их ИИ давно, в т.ч. для различных задач программирования, я знаю что есть ситуации где оно будет ошибаться, и ошибки будут неприятными, такие ошибки в режиме управления могут стать если не фатальными то выйти в копеечку.

Но есть идеи, как прикрутить это к виртуалке со снапшотами (каталог с кешем пакетов можно вынести на сетевой диск) и попробовать в промпте дать ему возможность откатывать состояние машины назад... в общем есть где разгуляться.

p.s. такие эксперименты будут не дешевы.

Ответ написан 11 мар.

1 комментарий

Как перевести строки в json с простейшей структурой на другие языки используя нейросети или API?

rPman @rPman

Пишите приложение, которое перебирает элементы json и отправляет переводчику по отдельности каждое

к сожалению даже топовые gpt с некоторыми не нулевыми шансами (даже если и 1% вам не понравится) могут пропустить что то важное или додумать или изменить структуру.

Есть structured output, ты описываешь выходную структуру и gpt сгенерирует ответ строго по этому формату, как минимум этот подход позволит защититься от повреждения структуры... не думаю что описать формат твоей json будет проще чем написать приложение, которое будет разбирать json на элементы.

Переводить можно как универсальными нейронками (это перебор конечно но почему нет, особенно когда нужно контролировать неоднозначности, пилишь огромный пропт, в котором указываешь правильный перевод имен, пол каждого или способ обращения, другие особенности а затем добавляя к нему короткие текстовые строчки получаешь перевод, благодаря nv-cache длинный пропт будет кешироваться и стоить меньгше/бесплатно) а можно специализированными, публично доступна вполне терпимая от facebook m2m100 или новее nllb-200, они мелкие и приемлемо работают на процессоре

Ответ написан 07 мар.

Комментировать

Владельцы подписки chat gpt, нормальные ли дизайны делает платная версия?

rPman @rPman

Текстовая gpt не сможет сделать дизан, как не пытайся. У него назначение - генерировать текст (из мультимодальности только понимание изображения но не его генерация... единственное что вышло за границу генерации текста - это звук, прошлым летом был релиз, но его сообщество тихонько забыло за ненадобностью).

Успешные примеры, которые ты можешь увидеть в интернете - это предобученные варианты, т.е. модель просто показала то что было в обучающей выборке (словесное описание само собой)

Штатный генератор картинок ИИ не является, это простой (по сравнению с gpt) транслятор смысла, в котором галлюцинации - его основная деятельность.

p.s. есть агенты, построенные поверх ИИ, т.е. в беседе gpt генерирует команды внешним утилитам, которые что то рисуют, делают, запрашивают в базе и т.п. кажется поверх этого народ что то пытается пилить, может даже что то полезное выйдет, но этого нет в chatgpt (ну не было в прошлом году)

Ответ написан 25 февр.

Комментировать

Как создать чат бот для проверки домашних дел у ребёнка?

rPman @rPman

Да, реализовать можно, но качество будет не высоким, ведь понятие порядок у уже обученных ИИ может сильно отличаться от вашего мнения.

Можно дообучить модель - классификатор, затратив не сильно много денег (есть google-ские vl модельки от 2b, есть qwen-овские и 2b и 9b и 90b на любой вкус и деньги), но даже в этом случае скорее всего качество распознавания 'в лоб' будет порядка 70% ну и обучающую выборку создавать нужно будет долго и кропотливо, каждый раз снимая фото до и после (желательно много раз с разных ракурсов и в разные моменты уборки).

Если не решать задачу в лоб, то используй фейсбуковскую SAM2 (или прежняя SAM), она разобьет изображение на объекты, каждый объект можно получить его координаты, описание и т.п. вот полученную информацию можно как то обрабатывать уже классическими алгоритмами, ведь будет видно что каждая вещь на каком месте... но качество фото должно быть высоким.

p.s. а можно не использовать нейронку, а делать фото из одного и того же места (закрепить камеру) и сравнивать фото в момент, когда комната была прибрана и когда нет, по количеству расхождений... а вот что именно сравнивать уже вопрос.

Ответ написан 16 февр.

1 комментарий

Как быстро войти в тему разработки ChatGPT, LLM Agent и т.п.?

rPman @rPman

Разве эта задача решается легко? а как ее решали до сегодняшнего дня? что является критерием оценки качества беседы?

У тебя вроде все указано нужное - whisper получает текст, может с временными метками (хз что такое faster-whisper-xxl, есть есть официальная утилита на python - pip install whisper в консоли задаешь модель и кучу параметров и получаешь текстовый файл).

Результат слабоват, потому что инструменты такие. Выбирай по умнее. И не забывай, что с русским языком локальные ИИ работают значительно хуже чем с английским (или если это qwen еще и китайский).

Не пытайся решать задачу одним промптом. Набрасывай на проверяемые данные несколько промптов, по очереди (не одним чатом, а каждый раз заново). Кстати есть замечание, разные сети по разному реагируют на размещение вопроса перед данными и после (есть соблазн размещать данные в начале, потому что тогда работает кеширование и входной текст не обрабатывается заново), т.е. можно данные+вопрос и вопрос+данные

а еще бывает вопрос+данные+фразы_помощники типа 'глубоко вдохни и подумай шаг за шагом', 'ты уверен, а если подумать еще раз', 'и какой будет твой окончательный ответ' а так же извлечение строгого ответа из ответа в свободной форме, ведь если сразу ограничить формат ответа, то качество будет хуже..

еще есть совет, делать несколько прогонов одной и той же задачи и смотреть, как будут отличаться результаты, если гулять сильно, значит повод задуматься об изменении подхода или алгоритма.

Добавь сюда ручную проверку человеком (например случайные результаты проверки) и сохраняй в табличку для анализа, как часто ИИ ошибается и в каких случаях, поможет тюнить промпт и вообще следить за тем бардаком, что вытворяет ИИ.

upd. настоятельно рекомендую использовать 70b модели (та же qwen или llama3.3 например). При использовании младших моделей, старайся не использовать квантизацию, она их ломает сильнее чем для старших версий... используй 8bit, не меньше.

Мне нравятся модели deepseek distilled qwen 14b или 32b? 14b с полным контекстом можно запустить на 2x16gb nvidia 4060ti, при этом рекомендую использовать vllm а не llama.cpp (каждая стоит 50т.р. дешевле ну просто некуда) на скоростях с батчингом до тысячи tps (16 параллельных запросов мне давали 800tps ну а vllm при запуске обещал 31k tps)... внимание, промпты и ответ только на английском, но русский вроде понимает

Ответ написан 15 февр.

Комментировать

Ошибка телергам бот с openai использована квота, как настроить?

rPman @rPman

У вас есть хоть какая то аналитика по логам использования бота и вызовам к api, если вы дергаете api на любой запрос от пользователей, то вас можно легко за-ddos-ить

Что говорит сама openai https://platform.openai.com/usage/activity

Ответ написан 01 февр.

2 комментария

Какая локальная нейросеть учится на моей базе документов?

rPman @rPman

Главное ограничение современного ИИ а основе gpt - это размер контекста, а именно, сколько влезет информации в один запрос. Чем больше размер контекста, тем хуже качество, причем падение стремительное. Открытые сети, которые можно запустить локально, обычно основаны на 8к-16к токенов, и даже если заявлены 128к или миллион, то качество будет очень низкое, ИИ будет путаться и пропускать данные, выдумывать свои... что критично для и без того не очень качественные результаты.

Если в пределах одного документа на ручных тестах результат тебя устраивает, значит необходимо разработать систему, которая будет предварительно анализировать эти документы (условно строить индекс), и потом каждый запрос пользователя анализировать и пытаться понять, какие документы нужно а какие пропустить. И вот тут огромный простор для экспериментов.

Самое тупое но достаточно качественное - по очереди для каждого документа задаешь свой вопрос, ответы складываешь в контекстное окно (предварительно пропуская через фильтр - 'является ли это ответом на мой вопрос '...'?'), итоговое контекстное окно снова дополняешь вопросом, и выводишь ответ. Это почти самый точный способ (не подходит, когда для ответа нужна информация сразу из нескольких документов) но очень долгий/дорогой, если база документов большая.

Поэтому для каждого запроса нужно исключать из анализа ненужные документы. Например уже названный RAG, по простому, все документы делится на кусочки (условно абзацы или предложения), по каждому строится числовой вектор смысла Embeddings (разные, есть готовые на основе трансформера), и то же самое делать для вопроса пользователя... полученные вектора сравниваются, вычисляется расстояние, меньше расстояние - ближе по смыслу. Таким образом простым поиском можно найти какие части документа будут скорее всего полезны для ответа на вопрос. А дальше огромное поле для вариантов, например, загружаешь в контекстное окно целиком документ, вектора которых близки по смыслу с вопросом или их больше количественно (суммирование тоже нужно с умом делать). Мне нравится идея, когда, документы (несколько) которые подходят, прогоняют по одному отдельным промптом с вопросом - что из этого документа полезно для вот этого вопроса... собранную информацию затем заливаешь в итоговое контекстное окно и пусть оно разбирается.

Есть еще подход, когда изначальный список документов долго и упорно обрабатывается и на его основе строится древовидная структура - Document Hierarchy Generation, Knowledge Graphs, Hierarchical topic tree и прочее (погугли что там выскикавает на эти названия) и уже с ее помощью можно принимать решение, какие именно дукументы нужны.

Для небольшого количества документов можно предварительно использовать самморизацию этих документов или их частей, образуя некоторый каталог-выжимку, сложив которую в один запрос можно задавать вопросы уже к нему.. т.е. исходный вопрос задаешь к этой выжимке ('вот список документов с кратким описанием, какие из них необходимо прочитать что бы получить ответ на следующий вопрос: ...',.. нормальные gpt сети мало галлюцинируют, если в тексте будет идентификатор документа и текст по нему.. но к примеру слабые 8b модели работают плохо (но я пробовал давно, возможно уже deepseek distilled модели уже лучше с этим)

Ответ написан 01 февр.

Комментировать

Как определить объем кода в проекте сгенерированный нейронкой?

rPman @rPman

Очень ненадёжно, скорее всего это будет работать именно для программного кода но не текстов.

Можно посмотреть на perplexity сгенерированого (точнее алгоритм похож), условно на сколько текст отличается от того что могла бы сгенерировать нейронка... примерный алгоритм:

на вход нейронной сети продается текст, какая то его начальная часть (собственно разделение исходников на блоки и создание стартового промпта и есть проблема, решив которую алгоритм будет работать как ожидается), и проверяем какая вероятность следующего токена (по тексту), условно говоря в нашем тексте "2+2=четыре" (словом не числом), и после "=" ожидаются пробел, буква "ч" или цифра 4, с разными вероятностями, запоминаем вероятность буквы "ч", так делаем для каждого токена, как то складываем собранные вероятности и получение число, чем выше, тем больше шансов что текст сгенерирован этой нейронкой?
На сколько я помню в perplexity складывают логарифмы вероятностей. Возможно лучше смотреть не на вероятность x, а на 1/x и соответственно сложить, потом разделить на количество токенов, и чем меньше результат тем лучше. Так же можно смотреть разницу между вероятность сгенерировано нейронкой токена и вероятность токена из текста.

В итоге для каждого кусочка файла в проекте ты можешь посчитать некоторую метрику - неуверенность нейронки в нем, чем меньше нейронка уверена в ответе тем выше шансы что ответ не банальщина и не придумал нейронкой. К сожалению, вычислять придется эту метрику для всех популярных нейронок, так как результат будет разным.

Так как тебе нужно еще и посчитать, сколько конкретно каждый участник на 'говнокодил', тебе нужно будет предварительно еще и разметить, какой участок кода чей (для этого придется пройти по всему логу изменений, правда под вопросом доля участия, ведь человек может изменить один символ в строчке, ему одну строчку засчитать? всю функцию? весь файл?)

Ответ написан 01 февр.

Комментировать

Компьютер с какими характеристика требуется для комфортного использования llama3.1:405b?

rPman @rPman

Нужны видеокарты, суммарным объемом 1024гб. тут только специализированные, найти в продаже в странах под санкциями нереал, рынок пустой был уже в 2020-ом. Цены тут 5х от мировых.

Квантизация тут тоже есть, vllm самая эффективная реализация, поэтому если тебе не нужно дообучать, а только исполнение, то пойдет 8bit квантизация.
-------

На процессоре с помощью llama.cpp, где-нибудь 10-20 секунд на токен (кстати повышается в несколько раз при batch запросах, когда тебе нужно обработать сразу много prompt-ов).

Тебе нужна серверная материнка (хоть прошлого поколения, важна оперативная память), размер памяти минимум 256гб (4битная квантизация, потеряешь в качестве), лучше 512гб. К сожалению рынок тут только БУ со всеми вытекающими от сюда ценами и гарантиями.
--------

Можно запускать на нескольких десктопах!
Год назад в llama.cpp портировали MPI реализацию, поддержка запуска на нескольких нодах (как пример нам было 8 raspberrypi и llama65b) поэтому приобрести 4 компьютера по 64-128гб не проблема, процессор не самый топовый, какой-нибудь AMD Ryzen 5 9600X/7600X (6-ядерный, лучшая производительность singlethread дешевле $300/$200), на сколько я понял, упирается все в сеть, поэтому сверху 10Gb ethernet адаптеры в придачу (они относительно дешевые).

Каждый из компьютеров обойдется примерно в 100т.р. (можно ужаться и набрать по 70т.р. но там и процессоры по слабее и память по медленнее, но не значительно), и таких нужно 3-4 штуки.

Сетевые карты 10G покупать парами, объединить в круг (это самый дешевый конфиг). Иначе, еще вложиться в свитч примерно такой же стоимости. Если честно я не нашел информации или каких то расчетов, которые скажут требования к сети, очень даже может быть что хватит встроенных в материнку и гигабитного свитча, речь идет об оптимальной утилизации процессора и памяти.
--------

Есть еще один экстремальный вариант, он не требует почти никаких особых затрат, любая даже самая слабая железка с любым количеством RAM (пусть условно 16гб-32гб будет, контекст хранить нужно) но с максимально быстрым ssd nvme диском (или несколькими в raid0). llama.cpp штатно умеет работать с моделями напрямую с диска (mlock режим), будет считывать всю модель по одному разу на каждый токен.

Например 4 ssd диска (проходной apaser за 2.5т.р. но лучше что то по быстрее с pci-e 4.0) на скорости 2гбайта/с (само собой есть быстрее) с соответствующими pci-e контроллерами обойдутся в считанные 16-25т.р., полученный 'монстр' будет считывать всю модель с 8битной квантизацией за 30-15 секунд, и уже вопрос, успеет ли процессор на такой скорости модель считать.

p.s. осторожно, ssd на 'чтение' тоже не бесплатно работает, это тоже изнашивает ресурс, только не так быстро как запись, может в тысячу раз медленнее, может в десятки тысяч.

Ответ написан 28 авг. 2024

6 комментариев

Как поставить правильные инструкции для GPT API для обхода цензуры?

rPman @rPman

Полистай идеи в старых jailbreak типа таких (лучше погугли, можно найти больше)

Но главное, не надейся что такие промпты будут долго работать, с той стороны не идиоты сидят, и промпты пользователей анализируют максимально тщательно, так как эта информация наиценнейший актив, позволяющий значимо улучшать модели.

p.s. ты пробовал открытые аналоги, ты пробовал уйти от изображений к текстовому описанию, который получаешь сторонними средствами (недавно вышла facebook sam - модель для сегментирования объектов на изображении, можно разобрать, каждое по отдельности проанализировать, и серией запросов набрать описание)

Ответ написан 20 авг. 2024

Комментировать

Какие лимиты в ChatGpt-4 за 20 долларов?

rPman @rPman

Используй api, в документации кода готового достаточно, лимиты практически отсутствуют (там больше речь о непрерывной нагрузке) и оплатой по факту использования, минимальная оплата 5$ (иначе не будет доступа к gpt4), деньги на счёте будет год лежать до их траты (там оплачиваешь план, остатки сгорают через год)

К сожалению голосовой ассистент по api недоступен. Так же не доступны агенты и плагины, включая поиск по сети.

P.s. claude anthropic 32к контекст в бесплатной версии, несколько исходных файлов влезают в контекст, работает неплохо

P.p.s. напоминаю даже gpt4 отвратительно работают с большим контекстом, пропуская информацию до 80% фактов по тестам.
Это родовая болячка gpt из-за квадрата в трудоемкости и требованиям к памяти от размера контекста, их обучают по особому, что значительно понижает качество работы в таких условиях

Ответ написан более года назад

Комментировать

Какую выбрать LLM для быстрого локального запуска?

rPman @rPman

llama3-70b и Codestral 22B единственные открытые сетки, которые давали мне адекватный вариант на не простые задачи (я почти не трогал qwen и command r+ а они тоже хороши).

Чтобы оценить требования памяти в зависимости от размера модели и ее квантизации, полистай сообщения этого бота, например вот для llama70b

p.s. llama.cpp позволит разместить часть весов в GPU а часть в RAM, это имеет смысл если оперативной памяти чуть чуть не хватает, а квантизация уже на грани понижения качества, я так codestral 22b с квантизацией 5bit на 16gb запускал, указав 48 из 57 слоев на gpu с такими скоростями:

llama_print_timings:        load time =    1997,65 ms
llama_print_timings:      sample time =     790,28 ms /   256 runs   (    3,09 ms per token,   323,94 tokens per second)
llama_print_timings: prompt eval time =   21593,29 ms /  7650 tokens (    2,82 ms per token,   354,28 tokens per second)
llama_print_timings:        eval time =   33864,88 ms /   255 runs   (  132,80 ms per token,     7,53 tokens per second)
llama_print_timings:       total time =   55938,24 ms /  7905 tokens

Ответ написан более года назад

Комментировать

Можно ли создать аналог my gpts с загрузкой производных файлов через API open AI?

rPman @rPman

В общем случае скорее всего нет.
Лучший gpt у нас у openai, ему на пятки наступают anthropic claude и google gemini (их нормальные модели не доступны бесплатно, а от гугла еще и очень в ограниченном количестве стран, и формально все они не доступны в России). По деньгам они будут сравнимы.

Если брать готовые модели, они могут оказаться тупо дороже (с оговорками про свое железо но добыть по адекватным ценам это не просто) и главное, открытые модели (с доступными весами) в разы слабее.

https://chat.lmsys.org/?leaderboard выбирай

К сожалению ни одна из адекватных доступных моделей не является мультимодальной, т.е. не сможет принимать на вход pdf файл или изоброжения, а значит адекватного ответа универсально с их помощью не получить. Это значит, pdf файл необходимо преобразовать в текст и это большая проблема, особенно для русского языка. Таблицы, графики, все это проблема, которую не решить простыми способами но по отдельности возможны разные варианты (очень не простые).

Так же проблема открытых моделей - маленькое контекстное окно (llama3 - 8k токенов, только очень маленькие pdf файлы можно в них поместить). А раз не помещаются в контекстное окно, значит потребуется самморизация и деление на части, в общем когда доберешься до конца, итоговый результат будет низкого качества.

p.s. такие решения на сколько я знаю пилят с переменным успехом, и универсального решения точно не будет.

Ответ написан более года назад

1 комментарий

Какие есть нейронные сети которые можно обучить на исходном коде?

rPman @rPman

Ни одна gpt не сможет полноценно решать такую задачу

скормить исходники движка Unreal Engine

потому что это НОВАЯ информация, ее не получится добавить в виде обучающей выборки и finetune. Так как это заставит модель больше галлюцинировать.

В теории это возможно

но потребуется переобучение (пусть и с использованием уже pretrained модели на старте) на данных, на которых эту сеть обучали! это наиважнейшее условие, с некоторой эффективностью можно проредить исходные данные, буквально на днях читал об исследованиях, как можно оценить, какие данные можно использовать для дообучения а какие нет.

Стоимость этого будет сравнима со стоимостью полного обучения - миллионы баксов, без преувеличения!

После этого потребуется еще доводка с помощью алгоритмов RLHF (нужны серии специально подобранных вопросов, так же это очень связано с тем какая была обучающая выборка, иначе модель будет низкого уровня и способна только для задач completion и очень слабо для chat, а тебе нужны instruction

GPT умеет легко обучаться только на данных, которые влезают в контекстное окно. У лучшей открытой сетки llama3-70b это 8к токенов (обычно это +-1 файл исходников) да и у других от силы 16к и 32к но они слабые и способности запоминать данные во всем окне очень слабые.
Если что, советую mixtral 8x22b, требует 85гб для 4бит квантизации (в этом случае незначительно теряется качество) или лучше 96гб для 5битной. 64к размер контекста, работает несколько токенов в секунду на процессоре, т.е. будешь ждать но не критично долго

Но это не значит что совсем нельзя. Привожу пример сессии моей беседы с бесплатным anthropic claude (у них большое окно контекста, влезает несколько исходных файлов), скармливал исходники приложения на c# для поиска дубликатов видео.

Подготовил вопросы, они должны быть в старте промпта (тогда сетка их будет использовать на протяжении всей беседы) и подготовил промпты типа:
- вот список файлов проекта, с каакого файла нужно начать анализ чтобы ответить на эти вопросы
Смотрим что скажет сетка, и подсовываем ей по одному исходному файлу который она попросит
- проанализируй этот файл, если тебе нужна информация по классам, определенным в другом месте, сообщи об этом

Дополнительно в процессе беседы дублирую информацию из основных вопросов, либо задаю наводящие вопросы, если ответ получил не полный

Сеть поняла написанный код, как он работает и смогла ответить на нетривиальные вопросы.

К промптам в конец советую добавлять что то типа, 'проанализируй шаг за шагом', и эмоциональные 'мне очень важно получить ответ на этот вопрос, иначе меня уволят' и т.п.

Будь креативным в промптах, чем лучше запрос тем больше шансов получить ответ.

Для новых вопросов начинай новую сессию, заново заливая файлы. Чем больше файлов в контексте тем хуже сеть их понимает.

p.s. 'точно и без ошибок' не будет!

Ответ написан более года назад

Комментировать

Как запустить обучение с deepspeed у себя на пк?

rPman @rPman

deepspeed это про обучение на кластере, т.е. вместо покупки одной дорогой серверной видеокарточки, ты поднимаешь кластер из дешевых десктопных и по уму должен получить экономию в деньгах.

Ответ написан более года назад

1 комментарий

Какие сейчас текстовые нейросети можно локально поставить?

rPman @rPman

Если у тебя есть видеокарта (или несколько) nvidia с достаточным объемом gpu vram (обычно это 2х от количества параметров, но можно использовать квантизацию, 8битная не меняет значимо качество работы, если не нужно дообучать, т.е. количество параметров ~ размер памяти + чуть чуть, обычно гигабайт, на внутренние нужды сетки) то достаточно воспользоваться примерами python кода со страницы модели на huggingface. Самое главное, скрипт скачает модель автоматически.

Если у тебя нет достаточного количества vram или вообще нет nvidia видеокарты, то запускай на процессоре с помощью проекта llama.cpp (тебе не нужно ничего сверх этого). Он использует модели, конвертированные в собственный формат (сейчас это .gguf но он меняется очень часто, за год раза 3 менялся без обратной совместимости), у этого формата и проекта есть бонус - загрузка модели в кеш операционной системы, т.е. повторный запуск приложения не будет тратить время на загрузку модели. Так же есть поддержка gpu (причем и amd тоже, но я не пробовал, формально даже intel дискретка заработает, хз на сколько хорошо), причем фича - можно разместить там только часть модели, а вот python huggingface вариант так не может, либо вся нейронка либо только на процессоре. Так же проект может автоматически раскидывать модель по нескольким gpu (кажется этим управлять пока нельзя), что не очень просто в других случаях.

llama.cpp в поставке несет server, простенький веб интерфейс и api для работы в своих скриптах. Умеет режим chat (на самом деле не просто это запустить на huggingface примерах) и если покопаться в возможностях кода, есть мегафичи, например сохранение состояния. Особенность алгоритма работы llm такова что на входящие токены тратится время, но можно сохранить состояние в памяти, так работает чат режим, или на диске, и загрузить его по требованию и продолжить в режиме чата (например в контекст записываешь данные, сохраняешь состояние, а затем возвращая его, подсовываешь разные вопросы, загрузка состояния мгновенна, соответственно тратиться время будет только на вопрос и ответ, но не на повторную обработку данных, что актуально для нейронок с большим контекстом)

Теперь объединяем фичи huggingface и llama.cpp, в поставке последнего идут утилиты конвертации модели из huggingface в .gguf, просто указав название модели, она будет загружена, конвертирована, квантизована, если актуально, в нужную битность (настоятельно рекомендую 8бит, ну если сильно надо, можно 5бит), и будет работать максимально эффективно соответственно твоему железу.

ну и отвечаю на вопрос, какие нейронки хороши для дома - openchat35 -7B (основан на mistral), mixtral8x7b - 56B (требует оперативку но по скорости работает как 7B), посмотри на qwen1.5 (на любой вкус от 0.5B до 70B), cohere command R+ (кажется 100B версия догнала gpt4), а при наличии очень большого количества памяти - databrix (порядка 256Гб при 8битной квантизации, но работает как 30B модель так как использованы идеи из mixtral)

А вообще смотри чужие бенчмарки, они может не совсем адекватно показывают ситуацию (очень сложно сравнивать модели, когда в разных доменах знаний и задач они работают по разному) но альтернатива, сравнивать самому.

p.s. не советую надеяться на то что нейронки будут хороши на русском языке. Они могут его понимать, могут отвечать на нем, но качество результата скорее всего будет максимальным при использовании родного языка (чаще английский, но к примеру qwen скорее всего заточен на китайский)

Ответ написан более года назад

Комментировать

Можно ли с ChatGPT создать отчеты и графики на основе GoogleSheets?

rPman @rPman

Ищи плагины к chatgpt, не удивлюсь если кто то такой сделал и для табличных процессоров. Напоминаю что chatgpt это не просто gpt, это сложный продукт и пользоваться им не просто.

И да, красиво и универсально не будет. Тебе придется описывать словами всю свою задачу (я знаю что chatgpt ввели сохранение части старых запросов, но не уверен что это сработает тут, поэтому каждый раз, когда тебе понадобится решать свою задачу с таблицами, ты будешь приводить этот запрос).

p.s. я пользовался сторонними площадками типа coze, там и плагины и gpt4... ничего красивого и хорошего с теми же графиками там не получилось

Ответ написан более года назад

Комментировать

Войдите на сайт