@cinme
Программист С++

Какие есть нейронные сети которые можно обучить на исходном коде?

Ищу нейронную сеть, которой можно скормить исходники движка Unreal Engine и задавать вопросы по разным частям кода. Конеретно сейчас изучаю MASS AI. Очень много вопросов возникает, на форуме и в чатах считанные единицы сталкивались с предметом и то ответа не дают.
Требуется нейронная сеть, которая может работать автономно, без доступа к сети. Важна большая точность, пусть даже с невысокой производительностью.
В какую сторону следует копать?
  • Вопрос задан
  • 1128 просмотров
Пригласить эксперта
Ответы на вопрос 2
@rPman
Ни одна gpt не сможет полноценно решать такую задачу
скормить исходники движка Unreal Engine

потому что это НОВАЯ информация, ее не получится добавить в виде обучающей выборки и finetune. Так как это заставит модель больше галлюцинировать.
В теории это возможно
но потребуется переобучение (пусть и с использованием уже pretrained модели на старте) на данных, на которых эту сеть обучали! это наиважнейшее условие, с некоторой эффективностью можно проредить исходные данные, буквально на днях читал об исследованиях, как можно оценить, какие данные можно использовать для дообучения а какие нет.

Стоимость этого будет сравнима со стоимостью полного обучения - миллионы баксов, без преувеличения!

После этого потребуется еще доводка с помощью алгоритмов RLHF (нужны серии специально подобранных вопросов, так же это очень связано с тем какая была обучающая выборка, иначе модель будет низкого уровня и способна только для задач completion и очень слабо для chat, а тебе нужны instruction

GPT умеет легко обучаться только на данных, которые влезают в контекстное окно. У лучшей открытой сетки llama3-70b это 8к токенов (обычно это +-1 файл исходников) да и у других от силы 16к и 32к но они слабые и способности запоминать данные во всем окне очень слабые.
Если что, советую mixtral 8x22b, требует 85гб для 4бит квантизации (в этом случае незначительно теряется качество) или лучше 96гб для 5битной. 64к размер контекста, работает несколько токенов в секунду на процессоре, т.е. будешь ждать но не критично долго

Но это не значит что совсем нельзя. Привожу пример сессии моей беседы с бесплатным anthropic claude (у них большое окно контекста, влезает несколько исходных файлов), скармливал исходники приложения на c# для поиска дубликатов видео.

Подготовил вопросы, они должны быть в старте промпта (тогда сетка их будет использовать на протяжении всей беседы) и подготовил промпты типа:
- вот список файлов проекта, с каакого файла нужно начать анализ чтобы ответить на эти вопросы
Смотрим что скажет сетка, и подсовываем ей по одному исходному файлу который она попросит
- проанализируй этот файл, если тебе нужна информация по классам, определенным в другом месте, сообщи об этом

Дополнительно в процессе беседы дублирую информацию из основных вопросов, либо задаю наводящие вопросы, если ответ получил не полный

Сеть поняла написанный код, как он работает и смогла ответить на нетривиальные вопросы.

К промптам в конец советую добавлять что то типа, 'проанализируй шаг за шагом', и эмоциональные 'мне очень важно получить ответ на этот вопрос, иначе меня уволят' и т.п.

Будь креативным в промптах, чем лучше запрос тем больше шансов получить ответ.

Для новых вопросов начинай новую сессию, заново заливая файлы. Чем больше файлов в контексте тем хуже сеть их понимает.

p.s. 'точно и без ошибок' не будет!
Ответ написан
Комментировать
ThunderCat
@ThunderCat
{PHP, MySql, HTML, JS, CSS} developer
Gemini. Она умеет читать ресурсы в интернете и давать пояснения по прочитанному, в отличие от той же гпт.

PS: Из локально устанавливаемых думаю что ни одна не справится, так как контекст задачи слишком узкий, и обучение на коде ничего не даст.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы