Можно ли обучать нейросеть на базе книг?

Условно, например, я хочу создать нейросеть, которая будет генерировать блюда и рецепты разного формата на базе книг по кулинарии. Могу ли я каким-то образом просто скормить ей несколько сотен книг по кулинарии, чтобы она "поумнела"? Или мне нужно ее кормить конкретными данными, в конкретном виде или может какими-то формулами?

Общий вопрос: Можно ли нейросеть скормить тысячи книг по какой-то тематике, чтобы далее она могла владеть любой информацией из этих книг и выдавала на базе них грамотные ответы?
  • Вопрос задан
  • 581 просмотр
Пригласить эксперта
Ответы на вопрос 2
vabka
@vabka
Токсичный шарпист
То что ты описываешь называется "языковая модель" - тема достаточно большая и очень сложная, если хочется получать что-то осмысленное.

Если у тебя узкая задача - генерировать рецепты, то лучше как-нибудь предварительно обработать данные и формализовать их, чтобы работать именно с рецептами, а не их текстовым представлением.
В идеале стоит это всё совместить с классическими алгоритмами, чтобы не получился в итоге рецепт помидоров, жареных в огуречном кляре с заправкой из рыбных потрохов.

Советую также почитать про IBM Chef Watson:
https://www.bonappetit.com/entertaining-style/tren...
Там вообще нет по сути никакого машинного обучения.

+ Ещё учитывай, что просто взять текст произвольной книги и использовать для обучения нейросети - это преступление
Ответ написан
@rPman
Можно взять уже обученную языковую модель (из открытых лучшие это bloomz и фейсбуковский opt, из нелегальных но кардинально лучших - llama, ну а чужие платные - chatgpt4 api, не уверен что там открыли доступ на дообучение) и дообучнить (finetune).
Оцени модели на самом сложном бенчмарке MMLU, opt66b - 35, bloom175b - 39, llama65b - 68, gpt35 - 70, gpt4 - 86

Есть набор алгоритмов peft, с помощью которого можно тюнить очень большие модели на слабом железе и небольшом количестве данных.

Такие модели как llama и chatgpt4 можно использовать как обычного человека, буквально, предоставляя ему текст и задавая вопросы (текст+запрос+ответ+запрос... не должны превышать размер контекста, для llama это 2к токенов, для chatgpt - 4к или 8к). Если нужно перед вопросами залить в модель большой объем данных то используют дообучение. Внимание, это ломает модель, она запоминает обучаемые данные но начинает забывать области знаний, которых не было в дообучающей выборке, с этим борются в т.ч. подмешивая в нее данные из стартового датасета, на котором обучалась изначальная модель. Процент данных - вопрос экспериментальный, я не нашел (точнее статьи есть но их надо читать изучать, их много) примеров.

свойство это катастрофическое забывание
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы