@OlegErmakov

Как из RobertaTokenizer сделать XLMRobertaTokenizer?

Появилась задача выпендриться моделью для векторизации текста с пониманием сематики (или как там) текста. Решил использовать XLMRoberta с 800млн параметрами как основу и обучить ее на огрызке оскара. Если хотите мне предъявить в неправильной модели - предъявляйте, я не силен в эмбеддингах текста. Так же нужно сделать выбор: Либо использовать XLMRobertaForMaskedLM, которую я вообще не понимаю как использовать в эмбеддинге и + использовать logits.mean, что, как я думаю, угробит результат , либо XLMRobertaForTextClassification, где num_labels = размер эмбеддиннга, но я не знаю где брать нужный датасет, либо XLMRoberaModel, где есть удобный pooled_output, но где брать данные я тоже не знаю. В общем, есть просто файл на 17 гигов со сплошным текстом и задача получить модель, которая понимает сематику и дает хорошие эмбеддинги. Так вот, про основной вопрос: приглянулся мне вокаб от модельки ai-forever/ruRoberta-larg, но как преобразовать токенизатор без понятия
  • Вопрос задан
  • 208 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы