Ответы пользователя rPman по тегу «Искусственный интеллект»

Как тренировать Yolo, размер датасета, итоговый loss?

rPman @rPman

200 изображений и оно работает? На генерируй по больше изображений в датасете, поворотами и добавлением смазанного изображения и шумами алгоритмов сжатия видео, а так же наложениями нескольких объектов друг на друга. Еще можно собрать датасет на основе своих видео (твоя камера, твое освещение), просто вырезая из своих кадров box-ы распознанных элементов, собирать из них обучающую выборку (естественно модифицируя их как выше показано) и повторно тюнить модель.

Делай несколько снимков с чуть чуть сдвинутой камерой (например сдвинуто в сторону или повернута, можно программно делать) у всех алгоритмов искусственного зрения глюки обычно эпизодические, это видно на видео, внезапно пропадают детекции для случайных объектов, но на следующем кадре уже есть.

p.s. Есть алгоритмы сегментации (facebook SAM) которые просто выделяют объекты по контурам, эти алгоритмы можно совместить, распознавая сначала контуры, а затем, выделяя изображение с помощью этого контура (там изображение - маска), уже распозновай сам объект, так алгоритм будет работать с идеальными изображениями, на которых обучался.

Ответ написан 13 июл.

1 комментарий

Как обучить нейросеть на своих данных?

rPman @rPman

По-простому, ответ — никак!

Формально можно, но по факту это будет создание своего ИИ почти с нуля (можно взять в пример опыт DeepSeek — вроде бы они всё расписали, порядок вложений — несколько десятков миллионов баксов, и хотя они “стояли на плечах гигантов”, они реально молодцы: OpenAI потратили на пару порядков больше).

Новые знания "заливать" в GPT-модель не получится! Почти любые попытки файнтюна приводят к деградации и фокусировке на конкретных знаниях (да, есть успешные примеры обучения ИИ на чатах — она отлично ловит стиль текста, но умнее от такого не становится, даже наоборот). Правильный файнтюн требует начальной обучающей выборки, есть алгоритмы прореживания данных, чтобы дообучать не на полном датасете, а только на его части и чтобы деградация была минимальной або отсутствовала.

Обучающую выборку ни одна компания с адекватными моделями не публикует (из-за жадности) — потому что для нейронки это и есть “исходники”, а итоговые веса для инференса — это как .exe-файл: работать работает, но что-то поменять не получится.

p.s. Файнтюн, а ещё лучше — алгоритмы RLHF, позволяют изменить формат представления данных, например, внедрить системный промпт в модель, чтобы при её итоговом использовании он не требовался (чтобы не тратить на него драгоценные токены). Это выглядит не так просто, как написано: нужно правильно составлять обучающую выборку и тюнить качественную модель-валидатор ответов (так, например, по словам разработчиков, "характер Алисы" от Яндекса был внедрён в её модель — все её ответы на вопросы о её предпочтениях, отношении к чему-либо и т. п.).

p.p.s. Чтобы показать, почему это сложно, проведите эксперимент: возьмите самую простую нейронную сеть, которая будет пытаться аппроксимировать какую-нибудь функцию, типа y=sin(x), дайте ей пару-тройку слоёв и визуализируйте процесс — выводя на экран исходную функцию и то, что строит сеть... А затем посмотрите, что получится, если взять обученную сетку и подсунуть ей другую функцию, пусть даже слегка модифицированную. Сеть начинает "сходить с ума", пытаясь забыть старые данные и воспринять новые... И оказывается, что обучить заново с нуля сеть на новых данных просто быстрее и дешевле, чем переобучать предыдущую.

Ответ написан 21 июн.

3 комментария

Как наводить прицел точно на персонажа?

rPman @rPman

общая идея, использовать информацию с предыдущих кадров плюс сглаживание/усреднение - калмановский фильтр, экспоненциальное сглаживание, скользящее среднее (это первое что на chatgpt-шилось, общую идею я знал но пользовался этим раз в жизни, названия не помню)

чуть сложнее, разбирать объект на составляющие (в идеале всю сцену) и отслеживать движение каждого (недавно facebook релизила свою модельку для realtime детекции sam), тупой пример человек идет, размахивает руками, наклоняет голову, приседает... его составляющие двигаются по разному, поверх собранной информации о них уже можно строить алгоритмы определения где у человека что... плюс точность оценки координаты для части будет выше чем для целого (условно целиться нужно не в человека а в его голову, а точнее в список его частей тела по приоритетам голова, туловище, руки, ноги,.. ведь в разные моменты разные части тела будут скрываться)

Ответ написан 21 июн.

1 комментарий

Порекомендуйте плагин для интеграции ИИ в MSVC?

rPman @rPman

Вот тут искал?

А еще меня немного удивляет, ладно обыватели, но разработчик, на вопрос интеграции ИИ в среду разработки не удосужился спросить у этого же ИИ, как можно интегрировать свой скрипт в среду разработки.. Там тут же выдается два варианта - простейшее расширение и еще более простой external tools, даже если ну совсем ничего не понимаешь, можно ведь по кусочкам попросить написать все ИИ и получить ровно то что нужно а не то что кто то где то накодил

Ответ написан 09 июн.

3 комментария

Как сделать искуственный интеллект на компьютере и подключить к нему камеры, микрофоны?

rPman @rPman

* детектируешь голос (в любом случае будешь делать что бы сэкономить)
простым алгоритмом, не требующим особой энергии, нужно понять, когда кто-либо говорит, для этого достаточно разложения (алгоритмы VAD - voice activity detection), там вариантов куча, от простого подсчета амплитуды (накапливаешь на интервале, при превышении - считаешь что есть речь) или спектрального (то же самое но на узкой полосе частот человеческой речи) до полноценной миниатюрной нейронной сети (десятки весов, пара слоев), которая будет эффективно работать на встроенных в процессор технологий (именно так смартфоны все слушают даже в заблокированном состоянии и энергии хватает на несколько часов)
* транскрибация голоса в текст
так уж получилось, что с текстом работать гораздо удобнее чем с аудио, при этом конечно теряется куча информации (интонация, эмоции, владелец голоса и т.п.), но часть информации можно сохранять еще с этапа спектрального анализа
* обработка текста
от простых классических алгоритмов (они могут быть сложные в смысле размера но простые для понимания)

'включи/выключи камеру (номер камеры)' -> включаем/выключаем камеру номер такая-то

до использования текстовых ИИ
там все не так просто, языковые особенности вынуждают либо закладывать падежи, времена, род и т.п. в алгоритмы либо забивать сотни вариантов одной и той же команды.
* инструменты настройки и контроля за управляемым оборудованием
когда у тебя один микрофон, одна камера и одна лампочка, не нужно где то хранить сколько их, где они находятся, и как их настраивать, один раз вручную настроил а код работает с абстрактной - просто камера, но когда камер лампочек много, их нужно как то идентифицировать, как то ими управлять (у тебя одни камеры сяоми с одним хакнутым api и пара своих поделок со своим) следить что они работают,..
* инструменты настройки логики управления
добавить свою команду (надоело говорить 'выключи свет, закрой шторы' а хочешь - 'подготовка ко сну'), переименовать "камера 7" на "камера в спальне", ввести возможность контроля за владельцем голоса (типа если ты скажешь 'выключи свет' то действовать, а если кто то другой, сказать - 'не хочу') и за ним инструменты авторизации (например приложение на смартфоне, ожидающее двойное нажатие кнопки громкости для подтверждения и вибро для обратной коммуникации) и миллион других тонкостей, без которых твой умный дом никому будет не нужен.

И на этом этапе, использование готовой ИИ, которой даешь ручки управления, скидываешь сырой текст и ждешь что все будет работать как ожидается, может столкнуться с техническими ограничениями размера промпта.

p.s. недавно появился openai realtime api и мультимодальная модель gpt4o-realtime, умеющая текст и голос, там реализовали базовый инструментарий для реализации голосовых агентов, работающих в реальном времени, но сам не пробовал (только то что майкрософт предлагает голос-голос без ручек к инструментам, прикольно, но это игрушка)

p.p.s. майкрософт, когда релизила phi4, тихонько в уголке выложили свою мультимодальную модель с тремя модельностями text-image-audio. Тихо, наверное потому что из-за трех модальностей оно получилось не очень? я не пробовал

Ответ написан 31 мая

Комментировать

Возможен ли качественный перевод при помощи нейросетей?

rPman @rPman

Лучший качественный переводчик напрямую с голоса в голос, на текущий момент, это можно сделать на базе ИИ от openai - голосовой gpt (на основе gpt4o-audio и gpt4o-realtime есть еще mini варианты, они дешевле но очевидно тупее, хотя возможно для задач перевода более чем).

Бесплатно audio-audio попробовать можно у майкрософта в windows 11 во встроенном в edge copilot а так же на сайте copilot.microsoft.com, но требуется vpn (до появления audio моделей я пользовался их copilot под linux, подменив user agent в chromium браузере но сейчас это не сработает). Полагаю для голоса там используется модель mini. Системный промпт текстом не понимает, нужно говорить голосом сразу после старта

например:

На каждое мое сообщение отвечай его переводом, с русского на английский, а любой другой язык переводи на русский. Скажи ок если все понятно.

В этом случае он будет работать как синхронный переводчик

Понимает интонации (можно спросить - обясни чем отличаются следующие фразы - и сказать две одинаковые фразы, которые меняют свой смысл от интонации, например - 'я тебя понял' по простому, с раздражением, с иронией и т.п.), то что ни одна модель транскрибации не поймет.

В документации сказано что эти модели могут генерировать текст, так что формально они могут и голос в текст, но я не пробовал, все никак руки не дойдут потрогать realtime api, openrouter интерфейса не имеет а на основе официального нужно софт пилить, вроде есть примеры на github....

Все остальное - это последовательная транскрибация audio -> текст и после этого текст -> перевод.
Для транскрибации из открытых утилит - безусловно лидер openai:whisper (использовать large качественно но долго).
И тут лучшим переводчиком является топовые gpt.

Но есть нюанс - в готовом виде инструменты работают только для перевода коротких текстов (возможно chatgpt 'с памятью' уже научился но я не пробовал), например, при переводе книги, ее персонажи, в зависимости от пола, должны переводиться на русский по разному (он пошел - она пошла), если давать модели последовательно параграфы/главы, она не запомнит (контекстное окно считанные тысяча токенов, в него влезет пара глав от силы) пол персонажа, и придумает его от имени или даст случайный. Поэтому нужно в процессе перевода собирать важную информацию и добавлять его к системному промпту. Я пробовал такое в полуручном режиме, это работает шикарно.

Еще момент, топовый gpt знает лучше любого автоматического переводчика нюансы языков, устоявшиеся выражения, мемы и языковые особенности, но пока ты об этом не попросишь, не будет самовольно использовать это знание, т.е. системный промпт получается не просто - переведи это... а сложное ТЗ на десятки-сотни строк (где то видел в тг каналах примеры промптов, они с трудом влезали в 8к токенов), а я считаю что простым чатом тут не обойтись, и нужен процесс, серия агентов, которые будут разбирать текст на части, анализировать его, выискивать языковые и географические (для автора) особенности, запоминать особенности стилистики автора по тексту и тьму тьмущую вещей, которые знают только профессиональные переводчики... в общем не простая задача, но она точно реальна.

И да, русский язык в gpt, даже топовых, для галочки (были сообщения от openai разработчиков, что большое количество языков в обучающей выборке повышают ее качество), а значит если целевой язык не английский, высоких результатов не будет (но все еще лучше чем любой обычный автоматический переводчик, включая гугл, хотя они точно первые в этом)

p.s. топовые ИИ это openai:gpt4o и выше (4.1, o1, o3 но я думаю это излишне), anthropic:claude_sonnet_4 (3.7 и 3.5 использовал на всю катушку, для разных задач), google:gemini_2.5_pro и т.п. Mistral/qwen/grok/deepseek попробуй сам. Из открытых я сильно удивился майкрософтовскому phi4 (всего 14b параметров, заработает у обывателя с 32-64гб ram), как минимум он неплохо отвечает на русском, до этого более менее на русском от 70b llama говорила (но качество ее перевода было ниже среднего), вроде бы gemma3 (12b..27b) тоже не плохи но я мало экспериментировал, она мультимодальная и требования к оперативке +24гб даже для 12b

Ответ написан 25 мая

Комментировать

Почему AI(Deepseek, Qwen) даёт битые ссылки на код?

rPman @rPman

Нет, ИИ не может решать задачи в лоб, детерминировано и без галлюцинаций, тем более когда в контексте много информации.

В 'мозги' ИИ затолкали коллосальный объем информации, и оно путается в ней. Но можно очень сильно помочь, если в контекстное окно вместе с задачей, давать всю сопроводительную информацию, которая может понадобиться для ее решения. например просите составить команду для утилиты, добавьте в контекст вывод --help этой утилиты или из документации.. и тут уже проблема другого рода, как выбрать, что именно добавить, ведь контекст не резиновый.

Попробуйте поставить себя на место ИИ, вот у вас код на листочке и у вас нет ничего, только карандашик с листочком, ни интернета с компьютером, ни умного помощника рядом, вы сидите в одни пустой комнате и вас просят вот так сразу дать ответ, заваливая сотнями строк кода и данных.

Если вы сами попробовали бы давать ответ, вы обязательно будете ошибаться с первого раза, даже если прекрасно знаете этот ответ, чем больше информации вы будете выдавать, тем больше глупых ошибок.

ИИ прекрасно подхватил и это свойство человека.

p.s. вот на основе ИИ можно создавать агентов, которые, использую классические детерменированные подходы, будут перекрывать недостатки.

Например, если у вас есть список id,name из пары десятков строк, и вы просите ИИ делать с этими данными что то (например выдать их же но поменяв порядок колонок - name,id) с высокими шансами даже топовые ИИ могут пропустить строки, добавить несуществующие, попутать названия с id и т.п.

Но если вы напишете приложение, которое будет перебирать строки, по одной, добавляя его в контекст к ИИ, предварительно написав соответствующий системный промпт, то качество результата взлетит в небеса, ведь размещая в контекст чата только небольшое количество предыдущих строк (как пример), можно будет прогнать так по строчно, любое количество данных.

Универсально, решить задачу одним способом, создав одного красивого агента, пока не получается (но стараются, например можно предварительно попросить ИИ разработать агента для решения конкретной задачи, топовые модели могут создавать неплохие промпты, писать простенький код и даже ставить задачи самому себе)

Ответ написан 13 мая

Комментировать

Какие виды эмбединга используется в nlp?

rPman @rPman

Это какие то совсем древние технологии.

Погугли World2vec, FastText, GloVe (Global Vectors for Word Representation), ELMo (Embeddings from Language Models), Universal Sentence Encoder (USE), Graph-Based Embeddings (SynGCN)
или на основе трансформера, типа BERT (Bidirectional Encoder Representations from Transformers), Sentence-BERT

сравнение эмбендингов проводят простым евклидовым расстоянием или к примеру вычислением угла между векторами

p.s. скоро вместо 'ты что гуглить не умеешь' можно будет презрительно бросать - 'ты что с chatgpt общаться не умеешь'... мне кажется первое, чему учат все gpt ИИ сети, это технологиям работы с текстами, ИИ и т.п., так как это дает призрачную надежду что в будущем ИИ сможет улучшать себя если не полностью самостоятельно, то хотя бы частиично.

Ответ написан 10 мая

3 комментария

Какая нейросеть умеет в дизайн?

rPman @rPman

Таких нет, возможно кто то запилил на их основе готовый проектик, но почти наверняка выглядеть это будет топорно, лучше сам компонуй в редакторе и генерируй картинки.

Попроси copilot майкрософтовский, он слабый как ИИ но туда много что напихали

Ответ написан 05 мая

Комментировать

Какой сервер собрать для ИИ?

rPman @rPman

Если вариант 'только ИИ и никакими другими адекватными способами' уже решен и вас не перспорить то...

Забудьте про анализ на процессоре, будете ждать часами документ. Вам нужна видеокарта, а точнее достаточный объем vram что бы вместить и веса сети (ориентируйтесь на исходные веса и 8бит квантизацию) и kv-cache для контекстного окна (а его объем значимый) и кеша желательно 4-х кратно, что бы batching работал лучше.

Адекватные серверные GPU купить в россии (да и не только) за адекватные деньги не возможно.

Адекватные деньги - это только десктопное железо, самое доступное это 4060ti 16gb vram (по 55т.р. они тормозные для игр поэтому и дешевые). В самом лучшем варианте их можно будет вставить 4шт (можно и больше но почти наверняка будут проблемы в других местах) и при этом работать они будут максимум pci-e 4x (это повлияет на время загрузки весов но не на их работу!)

Если готовы переплатить, берите любые nvidia с 24gb vram. В принципе будет работать и amd, но по софту будете ограничены только llama.cpp, а он с видеокартами не самый эффективный (он заточен на работу на процессоре, но зато лучше всех)

С двумя gpu например отлично работает 14b сеть qwen и qwen distiled r1, я пока еще не пробовал но 27b гугловская так же будет работать. С четырьмя gpu можно пробовать 70b модели (c 4бит квантизацией точно), что llama что qwen.

Ответ написан 10 апр.

2 комментария

От чего зависит время ответа модели?

rPman @rPman

На сколько я знаю lm studio использует llama.cpp а та в свою очередь картинку токенизирует на процессоре, я хз как это изменить

если хватает gpu vram, используйте vllm (не уверен, работает ли сейчас там openai совместимый api с изображениями, когда я пробую самые последние модели, то у меня не получается, но со старыми почему нет) но там кажется не работает квантизация на лету (хотя бы 8бит) и придется искать модели уже квантизованные

Ответ написан 08 апр.

1 комментарий

Какие есть pretrained модели?

rPman @rPman

'Хорошие' модели начинаются с 32b qwen, на крайний случай 14b deepseek distilled qwen

К сожалению открытые модели, хорошие с русским не существует, вроде сбер гигачат публиковали веса, но назвать их хорошими не получится, их Макс версия только только обогнала qwen32b, а она не доступна.

Напоминаю, тюнинг почти не улучшает знания модели (чаще ломает), и в лучшем случае меняет формат ответа. Помню был пример для 8б модели llama, которую дёшево тюнили на стиль общения конкретных людей в чате, точнее на сам чат

Ответ написан 17 мар.

2 комментария

ИИ в строительной отрасли, какой выбрать?

rPman @rPman

у меня уже состоялось два более менее удачных прототипа с ChatGPT

Не знаю что у вас там состоялось, но в вашей области ИИ может помочь только с болтологией.

Его никто не обучал вашей задаче, finetuning НЕ ОБУЧАЕТ новым задачам, позволяет изменить способ общения и фокусирует работу на тематике, но чаще ЛОМАЕТ модель, ухудшая ее работу.

Локальные модели есть шанс в приниципе обучить на ваши узкие задачи (скорее всего нет) но на это потребуется ресурсов на порядки (несколько, не один) больше чем ваша работа в принципе.

p.s. большие и опытные команды делают из ИИ отличные поисковик по неструктурированным базам данным, причем в общем смысле, у некоторых получаются даже сложные кроссмысловые запросы. Пока это лучшее использование бизнесом ИИ (вангую будет и с программированием что-нибудь интересное), за исключением генерации мусора.

spoiler

посмотри в телеграме llm_under_hood он публикует разные тесты в своем приватном бенчмарке, направленный именно на использование в задачах бизнеса, будет из чего выбрать какой моделью пользоваться, у него есть сайт где удобнее смотреть но я его забыл а найти его в чате сложно, человек в маркетинг не очень ;)

Помним! что лучшие текстовые модели НЕ мультимодальные, они обучались и умеют работать ТОЛЬКО с текстами, пространственные смыслы у них на зачаточном уровне (но рост коллосальный за этот год), продвинутые тесты на сколько я помню даже дорогая o1 модель проходила на 20%... это должно вам намекнуть что в лоб ваша задача не решается.

p.p.s. сформулируйте вашу задачу строже, не абстрактно - 'решать мои задачи', а конкретизируя эти задачи, сформулируйте как вы их решаете, в своей голове

Если все же нужно что то пилить, то как это с разработкой, разделяйте на подзадачи и решайте каждую по отдельности, ИИ тут тоже есть где притулить, но это будет не задание-результат а сложоаня агентная система взаимодействующих классической логики и ИИ

Ответ написан 24 февр.

2 комментария

Как создать чат бот для проверки домашних дел у ребёнка?

rPman @rPman

Да, реализовать можно, но качество будет не высоким, ведь понятие порядок у уже обученных ИИ может сильно отличаться от вашего мнения.

Можно дообучить модель - классификатор, затратив не сильно много денег (есть google-ские vl модельки от 2b, есть qwen-овские и 2b и 9b и 90b на любой вкус и деньги), но даже в этом случае скорее всего качество распознавания 'в лоб' будет порядка 70% ну и обучающую выборку создавать нужно будет долго и кропотливо, каждый раз снимая фото до и после (желательно много раз с разных ракурсов и в разные моменты уборки).

Если не решать задачу в лоб, то используй фейсбуковскую SAM2 (или прежняя SAM), она разобьет изображение на объекты, каждый объект можно получить его координаты, описание и т.п. вот полученную информацию можно как то обрабатывать уже классическими алгоритмами, ведь будет видно что каждая вещь на каком месте... но качество фото должно быть высоким.

p.s. а можно не использовать нейронку, а делать фото из одного и того же места (закрепить камеру) и сравнивать фото в момент, когда комната была прибрана и когда нет, по количеству расхождений... а вот что именно сравнивать уже вопрос.

Ответ написан 16 февр.

1 комментарий

ИИ на стадии обучения программированию. Стоит ли?

rPman @rPman

На текущей стадии у ИИ нет никаких шансов заменить человека полностью, но это уже отличный инструмент, которые может повысить производительность программиста, что собственно и происходит.

Учиться нужно, чем сильнее ИИ будет интегрироваться в нашу жизнь, тем более умные/опытные люди будут нужны (а соответственно середнячки отойдут на обочину жизни).

Поэтому учись, это наиважнейшее умение, что у тебя пока ИИ не отнимет. Учись работать с ИИ, ты должен понимать не только его возможности но и его недостатки.. изучай, как можно обходить их и продолжать извлекать из этого пользу.

Ответ написан 02 февр.

Комментировать

Как получить данные в виде JSON/String от LLM?

rPman @rPman

В api некоторых провайдеров есть опция structured outputs.

Например для локальных открытых сетей в llama.cpp можно задать грамматику, и ответ будет генерироваться таким, что бы ей соответствовать... работает не идеально, исходя из особенностей gpt качество структурированных ответов ниже чем свободных, но с ними легче работать в своих скриптах автоматизации.

Ответ написан 01 февр.

Комментировать

Какая локальная нейросеть учится на моей базе документов?

rPman @rPman

Главное ограничение современного ИИ а основе gpt - это размер контекста, а именно, сколько влезет информации в один запрос. Чем больше размер контекста, тем хуже качество, причем падение стремительное. Открытые сети, которые можно запустить локально, обычно основаны на 8к-16к токенов, и даже если заявлены 128к или миллион, то качество будет очень низкое, ИИ будет путаться и пропускать данные, выдумывать свои... что критично для и без того не очень качественные результаты.

Если в пределах одного документа на ручных тестах результат тебя устраивает, значит необходимо разработать систему, которая будет предварительно анализировать эти документы (условно строить индекс), и потом каждый запрос пользователя анализировать и пытаться понять, какие документы нужно а какие пропустить. И вот тут огромный простор для экспериментов.

Самое тупое но достаточно качественное - по очереди для каждого документа задаешь свой вопрос, ответы складываешь в контекстное окно (предварительно пропуская через фильтр - 'является ли это ответом на мой вопрос '...'?'), итоговое контекстное окно снова дополняешь вопросом, и выводишь ответ. Это почти самый точный способ (не подходит, когда для ответа нужна информация сразу из нескольких документов) но очень долгий/дорогой, если база документов большая.

Поэтому для каждого запроса нужно исключать из анализа ненужные документы. Например уже названный RAG, по простому, все документы делится на кусочки (условно абзацы или предложения), по каждому строится числовой вектор смысла Embeddings (разные, есть готовые на основе трансформера), и то же самое делать для вопроса пользователя... полученные вектора сравниваются, вычисляется расстояние, меньше расстояние - ближе по смыслу. Таким образом простым поиском можно найти какие части документа будут скорее всего полезны для ответа на вопрос. А дальше огромное поле для вариантов, например, загружаешь в контекстное окно целиком документ, вектора которых близки по смыслу с вопросом или их больше количественно (суммирование тоже нужно с умом делать). Мне нравится идея, когда, документы (несколько) которые подходят, прогоняют по одному отдельным промптом с вопросом - что из этого документа полезно для вот этого вопроса... собранную информацию затем заливаешь в итоговое контекстное окно и пусть оно разбирается.

Есть еще подход, когда изначальный список документов долго и упорно обрабатывается и на его основе строится древовидная структура - Document Hierarchy Generation, Knowledge Graphs, Hierarchical topic tree и прочее (погугли что там выскикавает на эти названия) и уже с ее помощью можно принимать решение, какие именно дукументы нужны.

Для небольшого количества документов можно предварительно использовать самморизацию этих документов или их частей, образуя некоторый каталог-выжимку, сложив которую в один запрос можно задавать вопросы уже к нему.. т.е. исходный вопрос задаешь к этой выжимке ('вот список документов с кратким описанием, какие из них необходимо прочитать что бы получить ответ на следующий вопрос: ...',.. нормальные gpt сети мало галлюцинируют, если в тексте будет идентификатор документа и текст по нему.. но к примеру слабые 8b модели работают плохо (но я пробовал давно, возможно уже deepseek distilled модели уже лучше с этим)

Ответ написан 01 февр.

Комментировать

Как определить объем кода в проекте сгенерированный нейронкой?

rPman @rPman

Очень ненадёжно, скорее всего это будет работать именно для программного кода но не текстов.

Можно посмотреть на perplexity сгенерированого (точнее алгоритм похож), условно на сколько текст отличается от того что могла бы сгенерировать нейронка... примерный алгоритм:

на вход нейронной сети продается текст, какая то его начальная часть (собственно разделение исходников на блоки и создание стартового промпта и есть проблема, решив которую алгоритм будет работать как ожидается), и проверяем какая вероятность следующего токена (по тексту), условно говоря в нашем тексте "2+2=четыре" (словом не числом), и после "=" ожидаются пробел, буква "ч" или цифра 4, с разными вероятностями, запоминаем вероятность буквы "ч", так делаем для каждого токена, как то складываем собранные вероятности и получение число, чем выше, тем больше шансов что текст сгенерирован этой нейронкой?
На сколько я помню в perplexity складывают логарифмы вероятностей. Возможно лучше смотреть не на вероятность x, а на 1/x и соответственно сложить, потом разделить на количество токенов, и чем меньше результат тем лучше. Так же можно смотреть разницу между вероятность сгенерировано нейронкой токена и вероятность токена из текста.

В итоге для каждого кусочка файла в проекте ты можешь посчитать некоторую метрику - неуверенность нейронки в нем, чем меньше нейронка уверена в ответе тем выше шансы что ответ не банальщина и не придумал нейронкой. К сожалению, вычислять придется эту метрику для всех популярных нейронок, так как результат будет разным.

Так как тебе нужно еще и посчитать, сколько конкретно каждый участник на 'говнокодил', тебе нужно будет предварительно еще и разметить, какой участок кода чей (для этого придется пройти по всему логу изменений, правда под вопросом доля участия, ведь человек может изменить один символ в строчке, ему одну строчку засчитать? всю функцию? весь файл?)

Ответ написан 01 февр.

Комментировать

Как заставить Deepseek r1 (8b,14b) отвечать по-русски?

rPman @rPman

Это фича модели, сами разработчики об этом заявляют, что более менее адекватно она будет работать только с английским и китайским.

Используй другие модели до и после, для перевода вопроса с русского на английский и обратно.

И еще момент, 8b модель это дистиляция, у них конечно получилось нечто шикарное именно дистиляцией (особенно qwen модели) но все же 8b очень слабая модель, толку от нее будет мало.

https://huggingface.co/collections/deepseek-ai/dee...

Если тебя устраивала llama3.1 8b, то попробуй ее тюн на основе deepseek r1, говорят дистилированные модели стали неожиданно лучше чем то на чем они основаны, забрав у deepseek умение рассуждать по типу o1

И еще момент, не пользуйся квантизацией для этих маленьких моделей, или хотя бы 8b, так как качество будет падать заметнее чем квантизация оригинальных больших

Ну и чем больше весов будет у модели тем лучше, говорят deepseek-r1-llama70b очень очень хороша, и требования у нее такие что взять на vast.ai машину за дешево можно ею пользоваться на 'всю катушку'

Ну и расуждающие модели очень по разному будут работать от разных промптов, а уж если будешь вмешиваться в рссуждения (условно останавливаешь периодически, и просишь эту или другую модель проверить рассуждения, подправить, вернуть первоначальный запрос и продолжить рассуждения)

DeepSeek-R1-Distill-Qwen-14B, 8b квантизация 2x16gb vram, vllm, вопрос и ответ на английском, переведено гуглом

Вопрос:

У мальчика Пети три сестры — Алина, Марина и Катя, и два брата Сергей и Михаил. Сколько братьев у Алины?

p.s. если что на такие вопросы даже старшие модели могут отвечать фигню, а gpt3.5 почти всегда отвечает бред, даже с лайфхаками

Ответ:
<think>
Хорошо, мне нужно выяснить, сколько братьев у Алины. Давайте начнем с пошагового понимания проблемы.

Во-первых, дана информация о том, что у Пети три сестры: Алина, Марина и Катя. У него также есть два брата: Сергей и Михаил. Итак, Петя — мальчик, и у него есть эти братья и сестры.

Теперь вопрос в том, сколько братьев у Алины. Алина — одна из сестер Пети, поэтому она девочка. Чтобы узнать, сколько братьев у Алины, мне нужно подумать о том, кто ее братья.

Упоминается, что у Пети два брата: Сергей и Михаил. Итак, с точки зрения Пети, у него есть два брата, кроме него самого, итого три брата, включая его самого. Но подождите, а Петя включен в список, когда мы говорим о братьях Алины?

Нет, потому что Алина — сестра Пети, и мы смотрим с точки зрения Алины. Итак, с точки зрения Алины, ее братья — это другие братья и сестры мужского пола в семье.

Учитывая, что у Пети есть два брата, Сергей и Михаил, это также будут братья Алины. Итак, у Алины есть два брата: Сергей и Михаил.

Но подождите минутку, раньше я думала включить Петю в подсчет, но теперь я его исключаю, потому что мы смотрим с точки зрения Алины. Таким образом, общее количество братьев у Алины должно быть два.

Однако иногда люди могут включать самого человека при подсчете братьев и сестер, но в этом случае, поскольку мы сосредоточены на братьях Алины, мы не включаем ее в подсчет. Она сестра, и мы ищем ее братьев.

Итак, подведем итог:

- Алина — сестра.
- У нее есть два брата: Сергей и Михаил.

Следовательно, у Алины есть два брата.
</think>

У Алины есть два брата: Сергей и Михаил.

**Пошаговое объяснение:**

1. **Определите братьев и сестер:**
- Сестры: Алина, Марина, Катя (три сестры).
- Братья: Петя, Сергей, Михаил (три брата).

2. **Определите точку зрения Алины:**
- Алина — сестра, поэтому она считает Петю, Сергея и Михаила своими братьями.

3. **Посчитайте братьев:**
- Петя — брат.
- Сергей — брат.
- Михаил — брат.
- Всего: 3 брата.

**Ответ:** У Алины три брата.

Ответ написан 21 янв.

6 комментариев

Есть хорошая библиотека для работы с claude через api?

rPman @rPman

Для начала у antropic есть рабочее пространство https://console.anthropic.com/ где можно работать через их api

Еще можно воспользоваться сторонними провайдерами, я например использую openrouter.ai (не без глюков но доступна даже оплата в криптовалюте, но к сожалению нужен vpn/прокси), они предоставляют доступ к куче моделей, включая труднодоступные o1, а так же разных провайдеров, и все в одном месте, плюс свой api (кажется дублирует openai)

Практически во все популярные IDE среды для разработки есть плагины для использования ИИ по разработке... достаточно указать api key (и иногда указать url, так как можно использовать локальные) и получить результат сразу в редакторе.

p.s. Первым делом топ ии модели, особенно openai и anthropic claude sonnet их разработчики обучают на программирование, и в т.ч. на работу с их api (openai даже переобучивает, что проблемы создает), ты можешь спокойно попросить их написать необходимые скрипты по твоей логике и будет у тебя свой чат или что тебе нужно.

Например, мне нужно было что бы мои вопросы проходили через чат с моделью, где я задаю типичные шаблонные вопросы, получаю ответ и продолжаю чат дальше,.. игнорируя промежуточные ответы, выводить только последний (это я пилил до появления рассуждающих o1), это приложение gpt4o написал за пару промптов и несколько минимальных исправлений.

Ответ написан 17 янв.

1 комментарий

Войдите на сайт