Мне нужно дообучить модель машинного перевода с английского на русский для перевода текстов со специфическим слэнгом. У меня есть два текстовых файла текстов со слэнгом на русском переводе и английском соответственно. Не знаю, можно ли это назвать датасетом. Можно взять какую-нибудь модель для перевода ru-en/en-ru и "докинуть" в нее свой датасет?
Не разбираюсь в вопросе, но когда читал про это, самое простое что можно сделать, взять обученную сетку у фейсбука, и изучить документацию по повторению их результата но уже на своих данных https://github.com/facebookresearch/fairseq/tree/m...
Xiran, ой нет, 40 примеров это для обучения недостаточно, мало того, даже для finetuning уже предобученной может оказаться недостаточно.
Пальцем в небо, может это стрельба по воробьям из пушки, но, gpt сетки completion можно обучить на свой формат вход-выход за разумные ресурсы (сотни баксов арендуя на том же vast.ai была статья как llama 8b тюнили на более сложную задачу),.. эти сетки умнее простых переводчиков, могут догадаться о стилистике.
pretrained completion не требует особого системного промпта (вопрос экспериментов), но очень хорошо работают в multishot режиме, когда контекстное окно заполняют примерами в виде "вопрос - ответ - вопрос - ответ - вопрос -" и вот последний вопрос и будет твой требуемый, а все предыдущие твои 40 примеров.
Я смотрел какую то презентацию яндекса еще времен до бума chatgpt35 там рассказывали про тюнинг весов токенизатора, когда сетку как бы обучают, заморозив все веса сети но разрешив менять веса токенов запроса (собственно обучение идет, подставляя системный промпт + впрос + известный ответ, но тюнят токенизер, это как бы подстраивает сетку под конкретный промпт, и это хорошо работало даже со считанными десятками примеров)