Комментарии пользователя Combinator_30

Задать вопрос

Комментарии

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Combinator_30 @Combinator_30 Автор вопроса

Не очень понял, что значит, "результат строго детерминирован этим самым текстом"? При таком подходе и выдаваемый llm код, строго говоря, детерминирован вашим промптом. А оценка ответов одной llm с помощью другой это альтернативный подход, их, в принципе, можно использовать вместе.

Написано 26 февр.
Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Combinator_30 @Combinator_30 Автор вопроса

Виктор Петров, так с использованием LLM в виде продвинутых болталок или справочников и сейчас проблем нет, с этим даже самые простые бесплатные модели справляются. Но производителям больше интересны серьёзные заказчики для серьезных задач, именно в этом секторе рынка, как понимаю, они собираются зарабатывать. Соответственно, и пиписьками самые продвинутые модели предпочитают мериться в тестах типа HLE и ARC-AGI-2, где и человеку приходится напрягаться. Я уже не говорю про решение математических проблем, которые пока и белковые математики не осилили. Именно здесь, я думаю, подключение проверки различных альтернативных путей по графу могут существенно улучшить результаты в плане соотношения качества и цены.

Написано 20 февр.
Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Combinator_30 @Combinator_30 Автор вопроса

Да, у глупых людей, конечно, тоже так, но зачем нам копировать поведение глупого человека?) А вот рассмотрение сразу нескольких цепочек решения может, кмк, повысить надёжность самооценки качества ответа, см., например, дискуссию здесь: https://habr.com/ru/posts/1001552/

Написано 20 февр.
Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Combinator_30 @Combinator_30 Автор вопроса

Можно даже не обязательно "нафиг", а просто всегда сопровождать любой ответ численной оценкой его истинности. А дальше уж пусть пользователи (хоть интеграторы, хоть сам бизнес) решают, что с этим делать. Мне кажется, эта оценка имеет ничуть не меньшую коммерческую ценность, чем сам формальный ответ.

Написано 19 февр.
Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Combinator_30 @Combinator_30 Автор вопроса

GavriKos, спасибо за отклик. Как понимаю, если данных, подобных тем, что на входе, в обучающей выборке не было, в любом случае вырастает вероятность галлюцинации. Но в случае прослеживания сразу нескольких траекторий мы будем иметь на выходе несколько примерно равновероятных (плохих) ответов. Поэтому и уверенность, что тот ответ, который был на первом месте, правильный, будет низкой (очень грубо говоря, Pbest/N, где N - число протестированных траекторий). Соответственно, и ответ LLM можно/нужно будет скорректировать до "я не знаю"/"я не компетентна ответить на этот вопрос". Если вероятность получится промежуточной (не совсем плохой, но и не очень хорошей) можно добавить к ответу - что то вроде "это лишь один из возможных вариантов, лучше так же уточнить в других источниках и т.д.
По поводу увеличения времени - это не обязательно увеличение на порядки, так как пересчитывать нужно будет лишь в некоторых вершинах графа, а именно, в тех, в которых есть наибольшая неопределённость. По крайней мере, в нашем случае, оно увеличивалось не более, чем в полтора - два раза. При этом, если вопрос простой, оно вообще практически не должно увеличиваться. Короче говоря, это как при выборе правильного хода в шахматах - если позиция очевидна, ходы делаются быстро, а вот если позиция сложная - надо подольше подумать. Мне кажется, улучшение качества ответов для бизнеса вполне может компенсировать некоторое уменьшение скорости. Да они могут и сами выбирать наиболее комфортный конкретно для них баланс скорость/качество, меняя порог, через который регулируется количество просматриваемых веток дерева при переборе вариантов.
Надеюсь, что, может быть, всё же кто-то, кто ближе к разработчикам реальных LLM всё же сможет прояснить этот вопрос.

Написано 19 февр.

Самые активные сегодня

Станислав Кириченко
- 3 ответа
- 0 вопросов
ImagineTables
- 1 ответ
- 1 вопрос
Пума Тайланд
- 2 ответа
- 0 вопросов
rPman
- 2 ответа
- 0 вопросов
antonskalkin73
- 1 ответ
- 0 вопросов
Shrizt
- 1 ответ
- 0 вопросов

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Войдите на сайт