Задать вопрос
@Combinator_30

Почему для оценки качества ответов LLM не используется многократный прогон модели на одних и тех же данных?

Привет. У меня вопрос к разработчикам LLM. Периодически читаю про жалобы на галлюцинации LLM и невозможность адекватной оценки вероятности её ответов (типа, уверенно врёт). При этом, я раньше занимался разработкой системы распознавания рукописного текста, и у нас была в чём-то схожая проблема (трудно было оценить достоверность результатов распознавания). Решалась она довольно неплохо путём прогона цепочки распознавания достаточно большого числа раз на одном и том же изображении, и последующей перенормировкой вероятностей в итоговом списке ответов (ответы, по существу генерировались методом монте-карло путём последовательного продвижения по графу возможных вариантов в байесовской цепи). Как понимаю, в LLM принцип генерации ответа в чём-то похожий (последовательный вероятностный перебор цепочки токенов с генерацией их в реальном масштабе времени). Соответственно, вопрос - а если повысить в разумных пределах температуру и Top P, прогонять цепочку несколько раз, а потом пересчитывать итоговую вероятность правильности ответа путём перенормировки списка, это не может ли помочь хотя бы частично решить проблему?

PS

Заранее извиняюсь, если что-то не догоняю, я в LLM не Копенгаген, но идея, думаю, понятна.
  • Вопрос задан
  • 184 просмотра
Подписаться 1 Простой 7 комментариев
Помогут разобраться в теме Все курсы
  • Нетология
    Специалист по искусственному интеллекту
    11 месяцев
    Далее
  • Академия Эдюсон
    Machine Learning: тариф Базовый
    7 месяцев
    Далее
  • Skillbox
    Нейросети. Практический курс
    3 месяца
    Далее
Пригласить эксперта
Ответы на вопрос 2
@rPman
Потому что не в каждом случае можно понять, какой и 1000 ответов - верный, но там где это можно статистически - пользуются (и это повышает качество ответа, но линейно при экспоненциальных затратах - т.е. дорого).
(так было, сейчас стараются гонять больше параллельных агентов и рассуждениями).

Вообще то наибольшую пользу в тестах представляют логи прохождения тестов, например что бы узнать, какие задачи не были решены моделями, вот на них кросстестирование запускать на разных моделях интереснее.

И да, тесты гоняют не для нас, пользователей, а для компаний-производителей, для рекламы и очернения конкурента. Зачем им делать нам пользу? хочешь что то протестировать, сделай это сам, на своих данных, получишь совсем иную картину. Тем более сейчас инструкции или скрипты для проведения бенчмарка по твоим условиям пишет любая средняя модель за 10 минут с ней работы.
Ответ написан
Комментировать
vpetrov
@vpetrov
частный SEO-специалист
Предположу, что тут надо разбирать две метрики: температуру и Confidence score. При разумно выставленной температуре модель честно отвечает, что не может ответить на вопрос (если не может). А вот степень уверенности с разбросом в 100% - это уже про внутреннюю оценку. Даже в самых простых случаях динамика там очень высокая, и едва ли можно использовать этот показатель для тестирования.
Собственно, а у людей разве не так? Чем глупее человек - тем более он уверен в собственных выводах.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы