Можно ли обучать нейросеть на базе книг?

Условно, например, я хочу создать нейросеть, которая будет генерировать блюда и рецепты разного формата на базе книг по кулинарии. Могу ли я каким-то образом просто скормить ей несколько сотен книг по кулинарии, чтобы она "поумнела"? Или мне нужно ее кормить конкретными данными, в конкретном виде или может какими-то формулами?

Общий вопрос: Можно ли нейросеть скормить тысячи книг по какой-то тематике, чтобы далее она могла владеть любой информацией из этих книг и выдавала на базе них грамотные ответы?
  • Вопрос задан
  • 1199 просмотров
Пригласить эксперта
Ответы на вопрос 2
То что ты описываешь называется "языковая модель" - тема достаточно большая и очень сложная, если хочется получать что-то осмысленное.

Если у тебя узкая задача - генерировать рецепты, то лучше как-нибудь предварительно обработать данные и формализовать их, чтобы работать именно с рецептами, а не их текстовым представлением.
В идеале стоит это всё совместить с классическими алгоритмами, чтобы не получился в итоге рецепт помидоров, жареных в огуречном кляре с заправкой из рыбных потрохов.

Советую также почитать про IBM Chef Watson:
https://www.bonappetit.com/entertaining-style/tren...
Там вообще нет по сути никакого машинного обучения.

+ Ещё учитывай, что просто взять текст произвольной книги и использовать для обучения нейросети - это преступление
Ответ написан
@rPman
Можно взять уже обученную языковую модель (из открытых лучшие это bloomz и фейсбуковский opt, из нелегальных но кардинально лучших - llama, ну а чужие платные - chatgpt4 api, не уверен что там открыли доступ на дообучение) и дообучнить (finetune).
Оцени модели на самом сложном бенчмарке MMLU, opt66b - 35, bloom175b - 39, llama65b - 68, gpt35 - 70, gpt4 - 86

Есть набор алгоритмов peft, с помощью которого можно тюнить очень большие модели на слабом железе и небольшом количестве данных.

Такие модели как llama и chatgpt4 можно использовать как обычного человека, буквально, предоставляя ему текст и задавая вопросы (текст+запрос+ответ+запрос... не должны превышать размер контекста, для llama это 2к токенов, для chatgpt - 4к или 8к). Если нужно перед вопросами залить в модель большой объем данных то используют дообучение. Внимание, это ломает модель, она запоминает обучаемые данные но начинает забывать области знаний, которых не было в дообучающей выборке, с этим борются в т.ч. подмешивая в нее данные из стартового датасета, на котором обучалась изначальная модель. Процент данных - вопрос экспериментальный, я не нашел (точнее статьи есть но их надо читать изучать, их много) примеров.

свойство это катастрофическое забывание
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы