Задать вопрос
@Zailox

Какие есть pretrained модели?

Какие есть pretrained модели для файн-тюнинга? Пробовал distilgpt2 - отлично с английским, плохо с кириллицей (повторяет текст кучу раз, дабы заполнить все 256 разрешенных токенов), t5-base/small - отлично с английским, но некоторые русские символы и спец символы ({, }, >, <) меняет на <UNK>

Есть ли хорошие мультиязычные модели, которые при этом не весят гигов по 50? (желательно как GPT2 1-2 гб)
  • Вопрос задан
  • 31 просмотр
Подписаться 1 Простой Комментировать
Пригласить эксперта
Ответы на вопрос 1
@rPman
'Хорошие' модели начинаются с 32b qwen, на крайний случай 14b deepseek distilled qwen

К сожалению открытые модели, хорошие с русским не существует, вроде сбер гигачат публиковали веса, но назвать их хорошими не получится, их Макс версия только только обогнала qwen32b, а она не доступна.

Напоминаю, тюнинг почти не улучшает знания модели (чаще ломает), и в лучшем случае меняет формат ответа. Помню был пример для 8б модели llama, которую дёшево тюнили на стиль общения конкретных людей в чате, точнее на сам чат
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы