@Smeilz1
За любое развитие

Как создать бота ChatGPT с обучением только на своих данных?

Можно ли создать условного chat gpt, который будет обучаться только не тех данных, которые ты сам ему дашь ?
Сейчас в chatgpt много мусора и выдумок, если даешь ускоспецилизированные запросы
Например я интересуюсь китайской медициной, но буду давать давать ему только данные из своих проверенных источников
  • Вопрос задан
  • 203 просмотра
Решения вопроса 2
много мусора и выдумок
Это следствие не только плохих данных, но и самой сути генераторов текста - они не понимают, что пишут в целом, а просто добавляют одно слово за другим. Какие бы вы данные ему ни скормили, от галлюцинаций вам не избавиться, так что задача, в принципе, не решаемая.

P.S. Словосочетания "проверенные источники" и "китайская медицина" можно в одном предложении использовать, только если вы пишете стендап на научнопопулярную тему.
Ответ написан
@rPman
Над решением задачи галлюцинаций на текущий момент работают лучшие умы планеты, красивого решения нет но специалисты из OpenAI говорят что считанные годы и проблема будет решена.

В идеальном случае тебе действительно нужно подготовить идеальные данные. Но к сожалению, особенность нейросетей такова, что помимо верных данных, тебе нужны граничные с ними неверные. Именно неверные данные (помеченные как ошибочные, в терминах llm например спец токеном или встроенным в алгоритм механизмом, либо давать группу токенов которые текстом будут сообщать об ошибке или отсутствии информации) позволят нейронной сети давать верные ответы.

Это особенность любых нейросетей можно представить так, твои обучающие данные это точки, которые ты в слепую бросаешь на ось, а область верных утверждений это отрезок. Если ты будешь пытаться определить отрезок 'бросая' только точки внутри отрезка, алгоритм сможет проводить разделение верно/неверно в любом месте за пределом этих точек, ведь любой такой вариант будет непротиворечив. А значит когда нейросеть попадет в ситуацию, не прописанную напрямую в обучающей выборки (то чего ы и хотим добиться) она будет предлагать варианты за границей нашей реальной правды, думая что линия правды дальше
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
@Andrey_Epifantsev
Вроде как параллельно с работой над ChatGPT, который в качестве исходного датасета использует разные данные накачанные с интернета кто-то разрабатывал аналогичную нейросеть только на основе научных статей. И в результате та нейросеть не взлетела. То ли там были запредельные галлюцинации, то ли неполиткорректность.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы