По-простому, ответ — никак!
Формально можно, но по факту это будет создание своего ИИ почти с нуля (можно взять в пример опыт DeepSeek — вроде бы они всё расписали, порядок вложений — несколько десятков миллионов баксов, и хотя они “стояли на плечах гигантов”, они реально молодцы: OpenAI потратили на пару порядков больше).
Новые знания "заливать" в GPT-модель не получится! Почти любые попытки файнтюна приводят к деградации и фокусировке на конкретных знаниях (да, есть успешные примеры обучения ИИ на чатах — она отлично ловит стиль текста, но умнее от такого не становится, даже наоборот). Правильный файнтюн требует начальной обучающей выборки, есть алгоритмы прореживания данных, чтобы дообучать не на полном датасете, а только на его части и чтобы деградация была минимальной або отсутствовала.
Обучающую выборку ни одна компания с адекватными моделями не публикует (из-за жадности) — потому что для нейронки это и есть “исходники”, а итоговые веса для инференса — это как .exe-файл: работать работает, но что-то поменять не получится.
p.s. Файнтюн, а ещё лучше — алгоритмы RLHF, позволяют изменить формат представления данных, например, внедрить системный промпт в модель, чтобы при её итоговом использовании он не требовался (чтобы не тратить на него драгоценные токены). Это выглядит не так просто, как написано: нужно правильно составлять обучающую выборку и тюнить качественную модель-валидатор ответов (так, например, по словам разработчиков, "характер Алисы" от Яндекса был внедрён в её модель — все её ответы на вопросы о её предпочтениях, отношении к чему-либо и т. п.).
p.p.s. Чтобы показать, почему это сложно, проведите эксперимент: возьмите самую простую нейронную сеть, которая будет пытаться аппроксимировать какую-нибудь функцию, типа y=sin(x), дайте ей пару-тройку слоёв и визуализируйте процесс — выводя на экран исходную функцию и то, что строит сеть... А затем посмотрите, что получится, если взять обученную сетку и подсунуть ей другую функцию, пусть даже слегка модифицированную. Сеть начинает "сходить с ума", пытаясь забыть старые данные и воспринять новые... И оказывается, что обучить заново с нуля сеть на новых данных просто быстрее и дешевле, чем переобучать предыдущую.