Какую нейросети актуальны в 2023 году для работы с русским языком?

Question

Дмитрий Свитящук @Dmitry_svit

Какую нейросети актуальны в 2023 году для работы с русским языком?

Ищу нейросеть c открытой лицензией, которой можно было бы скормить внутреннюю документацию компании (на русском языке), чтобы она могла отвечать на вопросы по этим данным. Пока наткнулся на DeepPavlov и SpaCy. В них есть необходимые возможности, но смущает, что у них последние обновления были в районе 2019-2020 годов т.е. 3+ лет назад. Учитывая, что Open AI раз в год выкатывает принципиально более функциональную ИИ, есть подозрения, что эти наработки серьезно устарели.

Подскажите, что из нейросетей наиболее актуально в 2023 году для работы с русскими текстами?

UDP. Ладно, насчет SpaCy погорячился. Добрался до их GitHub, у них последняя версия вышла меньше месяца назад. Но все-равно интересно знать, что еще есть.

Вопрос задан более двух лет назад
204 просмотра

4 комментария

Подписаться 3 Средний 4 комментария

d'Ivan @2ord

А в языке должно накопиться много изменений за год, которые необходимо поддерживать и учитывать? Другими словами, в чём нужда в постоянных обновлениях пакетов? Скажем, SpaCy.

Написано более двух лет назад
Дмитрий Свитящук @Dmitry_svit Автор вопроса

Да, было бы неплохо. DeepPavlov так и не смог у себя запустить т.к. он требует старые версии пакетов, которых уже нет в репозиториях. В этом плане SpaCy красавчики. Обновления выходят каждый месяц, обновляют пакеты, добавляют поддержку нового оборудования, исправляют ошибки. И самое важное – добавляют новый функционал. Нейросети сейчас развиваются семимильными шагами и не делать обновления несколько лет – считай, отстал минимум на поколение.

Написано более двух лет назад
Александр Скуснов @AlexSku

Писали же, что GPT-4 на всех языках работает.

Написано более двух лет назад
Дмитрий Свитящук @Dmitry_svit Автор вопроса

Александр Скуснов, превосходно работает. И я был бы очень рад его использовать. Только на вход GPT-4 берет ограниченное количество текста, всего пару килобайт. А у меня десятки мегабайт входных материалов.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее
Нетология

Бизнес-аналитик

7 месяцев

Далее
Skillbox

Профессия Machine Learning Engineer

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Дмитрий Свитящук @Dmitry_svit Автор вопроса

Спасибо за ответ! Большой размер модели меня не пугает (видимо, пока не уперся в ограничения оборудования)). Наоборот, как-то с настороженностью отношусь к моделям, где размер меньше гигабайта.

Bloom полистал. Здорово, что они в этом году новую версию выкатили. Да, она мульти-язычная, но не увидел русского языка в составе. Есть парочка европейских, азиатские и на удивление африканские.

Да, на llama тоже заглядываюсь. Легальность пока тоже не особо беспокоит. Больше критично наличие документации, чтобы понятно было как сетку использовать. Без этого какая бы она крутая ни была – она будет бесполезна. Может поделитесь какими-нибудь мануалами?

Написано более двух лет назад
rPman @rPman
нету мануалов
и мне кажется их даже исследователям не дали

типовой способ использования llama и openassistent, запрос вида

### Instruction: инструкции ### Input: данные или просто текст ### Output:
Пред instruction можно добавить описание, определяющее поведение модели, что то типа 'ты переводишь с японского на русский литературные тексты'. В данном примере в Input будет исходный текст а после output сетка выдаст перевод. В instruction можно добавлять инструкции типа - персонаж такой то - женского рода, переводить так то.

Так же по тому как модель галлюцинирует мусором в ответе можно понять что у нее много управляющих ключевых слов типа ### Question: ### Answer: ### Explanation: ### Comment и т.п. советую экспериментировать с запросами. Так же мне кажется сетка понимает эти ключевые слова на русском, т.е. можно писать ### Инструкции: ### Ответ. Есть типовой вариант использования в виде чата, где строка начинается с имени собеседника, типа AI:, User: сеть способна поддерживать разговор сразу нескольких человек. К сожалению контекст в 2к токенов очень мал (запрос не может превысить этот размер, иначе сеть не увидит его начало)
Написано более двух лет назад
Дмитрий Свитящук @Dmitry_svit Автор вопроса

Вооот! Собственно в размере входящего запроса и есть основное ограничение. Более, чем уверен, что chatGPT-4 шикарно справится с этой задачей, но он на вход принимает только пару килобайт текста. А у меня данных на вход на порядки больше.

Написано более двух лет назад
rPman @rPman

chatgpt4 пока доступны только 8к токенов, обещают 32к (я так понял это вместе с картинкой, как считать картинку хз)

по поводу контекста, дели текст на части, каждую часть прогоняй запросом, вытягивая какую то выжимку, нужную. для решения, и вставляй ее в следующем запросе, для следующего куска текста

p.s. помни еще есть алгоритмы зашумливания ответа, когда каждый следующий токен выбирается не самый лучший а случайный из приблизительно лучших, я раскрашивал ответ llama, было видно что в моменты когда сеть сомневается, количество вариантов становится резко больше. --temp у llama.cpp можно поставить в 0, тогда будет всегда строго (по умолчанию 0.8)

Написано более двух лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Системное администрирование

+2 ещё

Средний
Сервер с GPU предназначен ли для запуска фронтенда/бэкенда или он для вычислений?
- 1 подписчик
- 08 нояб.
- 275 просмотров
1

ответ
Нейронные сети

Простой
Как работать с планами в CursorAi?
- 2 подписчика
- 26 окт.
- 125 просмотров
1

ответ
Нейронные сети

Простой
Как надиктовывать текст голосом в Cursor?
- 1 подписчик
- 24 окт.
- 100 просмотров
1

ответ
Нейронные сети

Средний
Имеют ли нейросети или надстройки над ними возможность анализа «полноты» вопроса?
- 1 подписчик
- 23 окт.
- 89 просмотров
2

ответа
Нейронные сети

Сложный
Как организовать разбивку по таймкодам текста из 30000 слов?
- 1 подписчик
- 18 окт.
- 74 просмотра
0

ответов
Нейронные сети

+1 ещё

Средний
Можно ли расширить словарь VOSK простой правкой каких-то текстовых файлов?
- 1 подписчик
- 30 сент.
- 98 просмотров
1

ответ
Нейронные сети

Средний
Каков объём данных, передаваемых между узлами ComfyUI и где они хранятся (RAM/VRAM/...)?
- 1 подписчик
- 28 сент.
- 84 просмотра
1

ответ
Машинное обучение

+1 ещё

Средний
Есть ли готовая архитектура модели, которая принимает на вход подобный формат данных?
- 3 подписчика
- 27 сент.
- 162 просмотра
0

ответов
Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 6 подписчиков
- 22 сент.
- 1424 просмотра
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 262 просмотра
4

ответа
Показать ещё Загружается…

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Backend developer

Creative Code

До 160 000 ₽

Deep Learning Engineer (GigaChat Prod)

Сбер • Москва

от 350 000 ₽

А в языке должно накопиться много изменений за год, которые необходимо поддерживать и учитывать? Другими словами, в чём нужда в постоянных обновлениях пакетов? Скажем, SpaCy.
Да, было бы неплохо. DeepPavlov так и не смог у себя запустить т.к. он требует старые версии пакетов, которых уже нет в репозиториях. В этом плане SpaCy красавчики. Обновления выходят каждый месяц, обновляют пакеты, добавляют поддержку нового оборудования, исправляют ошибки. И самое важное – добавляют новый функционал. Нейросети сейчас развиваются семимильными шагами и не делать обновления несколько лет – считай, отстал минимум на поколение.
Писали же, что GPT-4 на всех языках работает.
Александр Скуснов, превосходно работает. И я был бы очень рад его использовать. Только на вход GPT-4 берет ограниченное количество текста, всего пару килобайт. А у меня десятки мегабайт входных материалов.

Answer 1 · 2023-05-08 23:31:52

c открытой лицензией

могла отвечать на вопросы

из самых крупных открытых мультимодальных языковых моделей (именно они проявили способности близкие к интеллекту), что мне известна, это bloom, размер в 13b даже можно на потребительском железе запустить (следующий размер 170B и для его запуска придется городить кластер с десятками секунд на токен) и ее качество в разы (десятки процентов) ниже llama, а у llama хуже chatgpt35 (да на считанные проценты), и тут такое дело что каждый следующий процент - это почти вселенная. Этой моделью я не игрался, но как я понял она лучшая из открытых мультимодальных (бери с префиксом -mt, они мультиязычные).

Еще есть facebook/opt

Оцени модели на самом сложном бенчмарке MMLU, opt66b - 35, bloom175b - 39, llama65b - 68, gpt35 - 70, gpt4 - 86

Настоятельно рекомендую освоить prompt/p-tuning, lora finetuning и т.п. (например peft) под свою задачу, именно таким образом у модели повышают качество работы на десяток другой процентов (сам я еще не дошел до практического применения, только изучаю). На худой конец используй OneShot/MultiShot (когда к запросу спереди добавляется один или несколько примеров вопрос-ответ, что сильно улучшает ответ но увеличивает нагрузку так как запрос увеличивается кратно).

spoiler

Само собой llama - лучшее из доступных решений, но не легальное. Бери минимум 30B лучше 65b, можешь взять оттененную версию от OpenAssistent, 8bit или 4bit quantization вполне себе здраво работает на процессоре с помощью llama.cpp, причем на столько что юзабилити его выше чем штатный питоновский код от huggingface, который мало того что заточен под серверные видеокарты, так еще и не оптимизирован (чего стоит чтение файла с моделью в кеш ОС вместо постоянной загрузки копированием, утилита запускается моментально и не нужно городить сервер с api как это надо в случае с питоном). 6-ядерный i5 12600 пережевывает например 1784b русский текст, а точнее 1981b запрос определить категорию - 239 сек (616.46 ms per token) + ответ в 31токен 32 сек (1055.86 ms per run), требуя для работы 47gb ram

Что лучше openassistent или оригинальная llama сказать сложно, ассистент затюнен на вопрос ответ, т.е. как инструмент общения он предпочтителен, а у llama больше мусора в ответе, но у меня есть ощущение что finetuning ломает модель, я почти уверен что если ее прогнать по тестам, по которым прогоняли llama, значения будут хуже.

Какую нейросети актуальны в 2023 году для работы с русским языком?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт