Как создать бота ChatGPT с обучением только на своих данных?

Question

Олег Петров @Smeilz1

За любое развитие

ChatGPT

Как создать бота ChatGPT с обучением только на своих данных?

Можно ли создать условного chat gpt, который будет обучаться только не тех данных, которые ты сам ему дашь ?
Сейчас в chatgpt много мусора и выдумок, если даешь ускоспецилизированные запросы
Например я интересуюсь китайской медициной, но буду давать давать ему только данные из своих проверенных источников

Вопрос задан более года назад
219 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

6 комментариев

Drno @Drno

PS китайская медицина работает тысячелетиями, и местами лучше чем обычная. Особенно в плане болезней, которые врачи считаю «неизлечимыми»

Написано более года назад
Алексей Уколов @alexey-m-ukolov

Drno, не нужно, пожалуйста, распространять лженауку. Особенно в части "врачи считают неизлечимыми" - Стив Джобс уже так долечился, например. И тысячи других, менее известных людей, ежегодно идут, к сожалению, к шарлатанам вместо лечения. Гомеопатию - пожалуйста пейте сколько влезет, пока сахар из ушей не посыпется, а вот опасной лженауке не место в приличных сообществах.

Написано более года назад
Олег Петров @Smeilz1 Автор вопроса

Алексей Уколов, Одно другому не противоречит. =) Сочетаем старые и новые знания. В Китае кстати сейчас именно так и делают. Используют новые методы и их традиционный подход в медицинских учреждениях.

Написано более года назад
Drno @Drno

Алексей Уколов, это не лженаука. Это не относится вообще к разделу науки.
Это относится к традиционной народной медицине. Так же как есть травники или русская народная медицина.
И в большинстве случаев они отлично работают и помогают там, где врачи говорят «не лечится».

Момент состоит в том, что надо понимать - какой из вариантов медицины надо использовать в тот или иной момент.
Наилучший подход дают сочетания обычной и традиционных медицин.

Если ты по каждому чиху будешь пить парацетамол с антибиотиками - организм у тебя офигеет.

А если лайтовые вещи будешь закидывать хинином в перемешку с вит С, медом черной смородиной, имбирнм и чесноком - организм не привыкнет к антибиотикам.
А это между прочим традиционная медицина

Так что называть ты китайскую медицину можешь как хочешь, но факты что она тысячилетиями вылечивает людей останется фактами.

Так же как и биополя и энергетика всего живого - то что ты в это не веришь, не значит что этого нет.

Чтобы традиционные варианты давали результаты, надо понимать что лечить надо не только «оболочку», но и «дух».

Потому что серьёзные болезни происходят в первую очередь на энергетическом уровне, а только потом переходят на тело.
Это тоже уже проверенные факты, просто врачи это отрицают, потому что не понимаю и потому что бабки и огромный бизнес

Написано более года назад
rPman @rPman

они не понимают, что пишут в целом, а просто добавляют одно слово за другим
не все так просто

llm каждый раз генерируя очередной токен, выбирает его соответственно внутреннему состоянию всей нейронной сети, которое с некоторой натяжкой и можно считать пониманием.

Предлагаю эксперимент, берешь ответ LLM (вместе с вопросом) обрезаешь его на любом месте, добавляешь одно любое свое слово в конец и подсовываешь полученный бутерброд в качестве входа нейросети заново (рекомендую использовать сырые сети а не проекты, добавляющие к пользовательскому промпту еще свои) и наблюдаешь, как нейросеть изворачивается, пытаясь (и это получается) ответить на исходный вопрос с учетом твоего токсичного вмешательства. Так как природа генерации llm случайна, эксперимент нужно проводить многократно чтобы можно было увидеть закономерности.

у LLM внутри есть 'понимание', но оно однозначно не человеческое, его нельзя просто сравнивать с нашим и в нем очень многое зависит от промпта и тюнинга весов входящих токенов (токены на вход нейросети подменяются векторами значений, их можно тюнить точно так же как тюнятся все веса сети, есть алгоритмы улучшающие работу сети, меняющие это, смотреть peft) и самое главное, любые совпадения в поведении ИИ с человеческим - не случайны, мы модель так определили - чтобы она пыталась найти закономерности в нашем поведении через наши тексты.

Написано более года назад
Алексей Уколов @alexey-m-ukolov

rPman, вы правы. Я сильно упростил и сгустил краски, чтобы у автора вопроса не было ложных надежд. По
уровню постановки вопроса видно, что задача решена не будет :)

Написано более года назад

2 комментария

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

VPN

+1 ещё

Простой
Какой хостинг выбрать для доступа к нейросетям(openai, gemini, grok)?
- 2 подписчика
- вчера
- 768 просмотров
3

ответа
API

+1 ещё

Средний
В чем ошибка open ai api response?
- 1 подписчик
- 25 июл.
- 61 просмотр
0

ответов
ChatGPT

Простой
Подписка на ChatGPT в РФ?
- 2 подписчика
- 24 июл.
- 745 просмотров
2

ответа
Android

+2 ещё

Средний
Как отвязать устройство от ChatGPT?
- 2 подписчика
- 07 июн.
- 678 просмотров
2

ответа
ChatGPT

Простой
Обнаружила что очень мало литературы по LLM?
- 2 подписчика
- 30 апр.
- 427 просмотров
1

ответ
ChatGPT

Простой
Почему Chat GPT возвращает 1 результат вместо 2-х?
- 2 подписчика
- 21 апр.
- 606 просмотров
0

ответов
ChatGPT

Средний
Почему OpenAI сообщает о неподдерживаемой стране?
- 1 подписчик
- 29 мар.
- 702 просмотра
1

ответ
AIOgram

+1 ещё

Простой
Тема: телеграм бот с ChatGPT, несколько вопросов?
- 1 подписчик
- 26 мар.
- 352 просмотра
1

ответ
ChatGPT

Простой
Какая модель ChatGPT лучше?
- 1 подписчик
- 23 мар.
- 475 просмотров
1

ответ
GitHub

+1 ещё

Средний
ChatGPT и Github. Можно ли совместить?
- 1 подписчик
- 11 мар.
- 657 просмотров
3

ответа
Показать ещё Загружается…

Fullstack Разработчик (Next.js / JavaScript / TypeScript)

App Company

от 150 000 до 300 000 ₽

Мобильный разработчик (React Native / другие)

App Company

от 150 000 до 300 000 ₽

Бизнес-ассистент

Wanted • Москва

от 150 000 до 200 000 ₽

Answer 1 · 2023-10-10 07:45:02

много мусора и выдумок

Это следствие не только плохих данных, но и самой сути генераторов текста - они не понимают, что пишут в целом, а просто добавляют одно слово за другим. Какие бы вы данные ему ни скормили, от галлюцинаций вам не избавиться, так что задача, в принципе, не решаемая.

P.S. Словосочетания "проверенные источники" и "китайская медицина" можно в одном предложении использовать, только если вы пишете стендап на научнопопулярную тему.

Answer 2 · 2023-10-10 08:21:43

Над решением задачи галлюцинаций на текущий момент работают лучшие умы планеты, красивого решения нет но специалисты из OpenAI говорят что считанные годы и проблема будет решена.

В идеальном случае тебе действительно нужно подготовить идеальные данные. Но к сожалению, особенность нейросетей такова, что помимо верных данных, тебе нужны граничные с ними неверные. Именно неверные данные (помеченные как ошибочные, в терминах llm например спец токеном или встроенным в алгоритм механизмом, либо давать группу токенов которые текстом будут сообщать об ошибке или отсутствии информации) позволят нейронной сети давать верные ответы.

Это особенность любых нейросетей можно представить так, твои обучающие данные это точки, которые ты в слепую бросаешь на ось, а область верных утверждений это отрезок. Если ты будешь пытаться определить отрезок 'бросая' только точки внутри отрезка, алгоритм сможет проводить разделение верно/неверно в любом месте за пределом этих точек, ведь любой такой вариант будет непротиворечив. А значит когда нейросеть попадет в ситуацию, не прописанную напрямую в обучающей выборки (то чего ы и хотим добиться) она будет предлагать варианты за границей нашей реальной правды, думая что линия правды дальше

Answer 3 · 2023-10-13 08:41:44

Вроде как параллельно с работой над ChatGPT, который в качестве исходного датасета использует разные данные накачанные с интернета кто-то разрабатывал аналогичную нейросеть только на основе научных статей. И в результате та нейросеть не взлетела. То ли там были запредельные галлюцинации, то ли неполиткорректность.

Как создать бота ChatGPT с обучением только на своих данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт