Задать вопрос
  • Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

    @Combinator_30 Автор вопроса
    Не очень понял, что значит, "результат строго детерминирован этим самым текстом"? При таком подходе и выдаваемый llm код, строго говоря, детерминирован вашим промптом. А оценка ответов одной llm с помощью другой это альтернативный подход, их, в принципе, можно использовать вместе.
    Написано
  • Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

    @Combinator_30 Автор вопроса
    Виктор Петров, так с использованием LLM в виде продвинутых болталок или справочников и сейчас проблем нет, с этим даже самые простые бесплатные модели справляются. Но производителям больше интересны серьёзные заказчики для серьезных задач, именно в этом секторе рынка, как понимаю, они собираются зарабатывать. Соответственно, и пиписьками самые продвинутые модели предпочитают мериться в тестах типа HLE и ARC-AGI-2, где и человеку приходится напрягаться. Я уже не говорю про решение математических проблем, которые пока и белковые математики не осилили. Именно здесь, я думаю, подключение проверки различных альтернативных путей по графу могут существенно улучшить результаты в плане соотношения качества и цены.
    Написано
  • Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

    @Combinator_30 Автор вопроса
    Да, у глупых людей, конечно, тоже так, но зачем нам копировать поведение глупого человека?) А вот рассмотрение сразу нескольких цепочек решения может, кмк, повысить надёжность самооценки качества ответа, см., например, дискуссию здесь: https://habr.com/ru/posts/1001552/
    Написано
  • Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

    @Combinator_30 Автор вопроса
    Можно даже не обязательно "нафиг", а просто всегда сопровождать любой ответ численной оценкой его истинности. А дальше уж пусть пользователи (хоть интеграторы, хоть сам бизнес) решают, что с этим делать. Мне кажется, эта оценка имеет ничуть не меньшую коммерческую ценность, чем сам формальный ответ.
    Написано
  • Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

    @Combinator_30 Автор вопроса
    GavriKos, спасибо за отклик. Как понимаю, если данных, подобных тем, что на входе, в обучающей выборке не было, в любом случае вырастает вероятность галлюцинации. Но в случае прослеживания сразу нескольких траекторий мы будем иметь на выходе несколько примерно равновероятных (плохих) ответов. Поэтому и уверенность, что тот ответ, который был на первом месте, правильный, будет низкой (очень грубо говоря, Pbest/N, где N - число протестированных траекторий). Соответственно, и ответ LLM можно/нужно будет скорректировать до "я не знаю"/"я не компетентна ответить на этот вопрос". Если вероятность получится промежуточной (не совсем плохой, но и не очень хорошей) можно добавить к ответу - что то вроде "это лишь один из возможных вариантов, лучше так же уточнить в других источниках и т.д.
    По поводу увеличения времени - это не обязательно увеличение на порядки, так как пересчитывать нужно будет лишь в некоторых вершинах графа, а именно, в тех, в которых есть наибольшая неопределённость. По крайней мере, в нашем случае, оно увеличивалось не более, чем в полтора - два раза. При этом, если вопрос простой, оно вообще практически не должно увеличиваться. Короче говоря, это как при выборе правильного хода в шахматах - если позиция очевидна, ходы делаются быстро, а вот если позиция сложная - надо подольше подумать. Мне кажется, улучшение качества ответов для бизнеса вполне может компенсировать некоторое уменьшение скорости. Да они могут и сами выбирать наиболее комфортный конкретно для них баланс скорость/качество, меняя порог, через который регулируется количество просматриваемых веток дерева при переборе вариантов.
    Надеюсь, что, может быть, всё же кто-то, кто ближе к разработчикам реальных LLM всё же сможет прояснить этот вопрос.
    Написано