Какую нейросети актуальны в 2023 году для работы с русским языком?

Ищу нейросеть c открытой лицензией, которой можно было бы скормить внутреннюю документацию компании (на русском языке), чтобы она могла отвечать на вопросы по этим данным. Пока наткнулся на DeepPavlov и SpaCy. В них есть необходимые возможности, но смущает, что у них последние обновления были в районе 2019-2020 годов т.е. 3+ лет назад. Учитывая, что Open AI раз в год выкатывает принципиально более функциональную ИИ, есть подозрения, что эти наработки серьезно устарели.

Подскажите, что из нейросетей наиболее актуально в 2023 году для работы с русскими текстами?

UDP. Ладно, насчет SpaCy погорячился. Добрался до их GitHub, у них последняя версия вышла меньше месяца назад. Но все-равно интересно знать, что еще есть.
  • Вопрос задан
  • 187 просмотров
Пригласить эксперта
Ответы на вопрос 1
@rPman
c открытой лицензией

могла отвечать на вопросы

из самых крупных открытых мультимодальных языковых моделей (именно они проявили способности близкие к интеллекту), что мне известна, это bloom, размер в 13b даже можно на потребительском железе запустить (следующий размер 170B и для его запуска придется городить кластер с десятками секунд на токен) и ее качество в разы (десятки процентов) ниже llama, а у llama хуже chatgpt35 (да на считанные проценты), и тут такое дело что каждый следующий процент - это почти вселенная. Этой моделью я не игрался, но как я понял она лучшая из открытых мультимодальных (бери с префиксом -mt, они мультиязычные).

Еще есть facebook/opt

Оцени модели на самом сложном бенчмарке MMLU, opt66b - 35, bloom175b - 39, llama65b - 68, gpt35 - 70, gpt4 - 86

Настоятельно рекомендую освоить prompt/p-tuning, lora finetuning и т.п. (например peft) под свою задачу, именно таким образом у модели повышают качество работы на десяток другой процентов (сам я еще не дошел до практического применения, только изучаю). На худой конец используй OneShot/MultiShot (когда к запросу спереди добавляется один или несколько примеров вопрос-ответ, что сильно улучшает ответ но увеличивает нагрузку так как запрос увеличивается кратно).
spoiler
Само собой llama - лучшее из доступных решений, но не легальное. Бери минимум 30B лучше 65b, можешь взять оттененную версию от OpenAssistent, 8bit или 4bit quantization вполне себе здраво работает на процессоре с помощью llama.cpp, причем на столько что юзабилити его выше чем штатный питоновский код от huggingface, который мало того что заточен под серверные видеокарты, так еще и не оптимизирован (чего стоит чтение файла с моделью в кеш ОС вместо постоянной загрузки копированием, утилита запускается моментально и не нужно городить сервер с api как это надо в случае с питоном). 6-ядерный i5 12600 пережевывает например 1784b русский текст, а точнее 1981b запрос определить категорию - 239 сек (616.46 ms per token) + ответ в 31токен 32 сек (1055.86 ms per run), требуя для работы 47gb ram

Что лучше openassistent или оригинальная llama сказать сложно, ассистент затюнен на вопрос ответ, т.е. как инструмент общения он предпочтителен, а у llama больше мусора в ответе, но у меня есть ощущение что finetuning ломает модель, я почти уверен что если ее прогнать по тестам, по которым прогоняли llama, значения будут хуже.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы