rPman, А я и не собираюсь дообучать с RLHF. Обучать модель для классификации правильности ответа мне как то не сильно хочется. Хочу просто научить ее на русском шпрехать на хорошем уровне
Я это давно уже понял, но все таки время от времени хочется сделать что-то своё. Из примера недавно пытался файнтюнить rugpt3large, но у нее параметров очень мало, поэтому ничего хорошего не получилось. Ну что ж, попробую дообучить llama 3.1, может что-то адекватное получится