Как определить объем кода в проекте сгенерированный нейронкой?

Question

Николай @crowar

Разработчик ну что тут ещё сказать =)

Как определить объем кода в проекте сгенерированный нейронкой?

Занимаюсь сбором метрик из командных git репок и стал замечать несколько трендов. Какие команды добавляют кучу кода, какие то нет.
И глядя на большой объем данных возник вопрос, а имеется ли способ посмотреть объем кода сгенерированный нейронкой, используют ли команды AI в своей работе или нет и если да то в каком проценте.

У кого-то есть идеи как собрать такую метрику.

Вопрос задан 31 янв.
205 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Data Scientist: расширенный курс

13 месяцев

Далее
Яндекс Практикум

Инженер машинного обучения

4 месяца

Далее
Skillfactory

Профессия Data Scientist

24 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 366 просмотров
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 192 просмотра
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 330 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 733 просмотра
4

ответа
VPN

+2 ещё

Средний
Почему ChatGPT не пускает с прокси?
- 1 подписчик
- 05 окт.
- 1361 просмотр
2

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 1 подписчик
- 01 окт.
- 580 просмотров
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 103 просмотра
0

ответов
Искусственный интеллект

Средний
Как обучить нейросеть используя API от DeepSeek/ChatGPT?
- 1 подписчик
- 14 сент.
- 190 просмотров
1

ответ
Google Play

+1 ещё

Средний
Как скачать ChatGPT из Google play?
- 2 подписчика
- 08 сент.
- 1113 просмотров
0

ответов
Обработка изображений

+1 ещё

Средний
Возможен ли сегодня пакетный анализ изображений при помощи ИИ-моделей?
- 2 подписчика
- 02 сент.
- 145 просмотров
3

ответа
Показать ещё Загружается…

Разработчик WebRTC-сервисов на Go в видеоплатформу

Яндекс • Москва

от 300 000 до 490 000 ₽

Старший инженер

Гринатом • Петрозаводск

До 80 000 ₽

Lead Тестировщик/QA инженер

EnerGO Technologies

от 200 000 ₽

Какие команды добавляют кучу кода, какие то нет.

Тебе нужно конкретизировать что ты хочешь.

Потому что нету никакого тега, на основании которого можно сказать что программист сам писал
или он пользовался AI или он пользовался AI частично.

Answer 1 · 2025-01-31 19:59:25

Everything_is_bad @Everything_is_bad

Просто не надо использовать "объем кода" как метрику.

Ответ написан 31 янв.

Комментировать

Answer 2 · 2025-01-31 20:06:37

Очень много кода вполне успешно и без нейронок генерируется (и даже более успешно).

Если хочется измерить влияние ИИ, то количество кода точно не показатель

Answer 3 · 2025-02-01 07:41:22

Очень ненадёжно, скорее всего это будет работать именно для программного кода но не текстов.

Можно посмотреть на perplexity сгенерированого (точнее алгоритм похож), условно на сколько текст отличается от того что могла бы сгенерировать нейронка... примерный алгоритм:

на вход нейронной сети продается текст, какая то его начальная часть (собственно разделение исходников на блоки и создание стартового промпта и есть проблема, решив которую алгоритм будет работать как ожидается), и проверяем какая вероятность следующего токена (по тексту), условно говоря в нашем тексте "2+2=четыре" (словом не числом), и после "=" ожидаются пробел, буква "ч" или цифра 4, с разными вероятностями, запоминаем вероятность буквы "ч", так делаем для каждого токена, как то складываем собранные вероятности и получение число, чем выше, тем больше шансов что текст сгенерирован этой нейронкой?
На сколько я помню в perplexity складывают логарифмы вероятностей. Возможно лучше смотреть не на вероятность x, а на 1/x и соответственно сложить, потом разделить на количество токенов, и чем меньше результат тем лучше. Так же можно смотреть разницу между вероятность сгенерировано нейронкой токена и вероятность токена из текста.

В итоге для каждого кусочка файла в проекте ты можешь посчитать некоторую метрику - неуверенность нейронки в нем, чем меньше нейронка уверена в ответе тем выше шансы что ответ не банальщина и не придумал нейронкой. К сожалению, вычислять придется эту метрику для всех популярных нейронок, так как результат будет разным.

Так как тебе нужно еще и посчитать, сколько конкретно каждый участник на 'говнокодил', тебе нужно будет предварительно еще и разметить, какой участок кода чей (для этого придется пройти по всему логу изменений, правда под вопросом доля участия, ведь человек может изменить один символ в строчке, ему одну строчку засчитать? всю функцию? весь файл?)

Как определить объем кода в проекте сгенерированный нейронкой?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт