Можно взять уже обученную языковую модель (из открытых лучшие это bloomz и фейсбуковский opt, из нелегальных но кардинально лучших - llama, ну а чужие платные - chatgpt4 api, не уверен что там открыли доступ на дообучение) и дообучнить (finetune).
Оцени модели на самом сложном бенчмарке MMLU, opt66b - 35, bloom175b - 39, llama65b - 68, gpt35 - 70, gpt4 - 86
Есть набор алгоритмов
peft, с помощью которого можно тюнить очень большие модели на слабом железе и небольшом количестве данных.
Такие модели как llama и chatgpt4 можно использовать как обычного человека, буквально, предоставляя ему текст и задавая вопросы (текст+запрос+ответ+запрос... не должны превышать размер контекста, для llama это 2к токенов, для chatgpt - 4к или 8к). Если нужно перед вопросами залить в модель большой объем данных то используют дообучение. Внимание, это ломает модель, она запоминает обучаемые данные но начинает забывать области знаний, которых не было в дообучающей выборке, с этим борются в т.ч. подмешивая в нее данные из стартового датасета, на котором обучалась изначальная модель. Процент данных - вопрос экспериментальный, я не нашел (точнее статьи есть но их надо читать изучать, их много) примеров.
свойство это
катастрофическое забывание