Кто писал собственный NLP-пайплайн перевода слов?

Question

Роман Денискин @romka123

Создатель приложения dialekt.rs

Кто писал собственный NLP-пайплайн перевода слов?

Добрый день.
А есть тут люди, кто писал алгоритм перевода с одного языка на другой с учётом словоформ в двух языках? Я пишу приложение которое позволяет читать сербские книги и переводить сербские слова на русский язык с учётом словоформы, т.е. kuca -> дом, kuce -> дома и т.д.

Вопрос такой, допустим в сербском словоформы к русскому языку ещё как то вяжутся. Для славянских языков базовый словарный перевод в читалке можно хорошо построить вокруг морфологии: словоформа → лемма → грамматические признаки (для этого есть готовые базы данных) → перевод. А что насчёт английского? Как вообще принять обрабатывать английские слова? В славянских языках с этим проще - слово является единственной атомарной леммой языка имеющий смысл, т.е. нажал на kuce - это дома. А в английском многое решают фразовые глаголы, частицы перед словами и т.д. например: find - искать, out - вне, выход, за пределы чего либо, а вместе find out - выяснять, разузнавать.

Мне не совсем понятно как матчить такое. В сербском я отслеживаю нажатие на слово N или же если двойной тап - то беру все предложение. Это легко организовать технически, что такое слово и что такое предложение понятно программируется. А как понять что в предложении "I found out the truth." или что ещё хуже, "I found it out yesterday." - тут фразовый глагол вообще разделён! Мы тут не говорим про LLM методы распознавание фразовых глаголов внутри приложения. Возможно есть давно написанный, простой и понятно реализованный алгоритм решающий эту проблему? Я читал, там нужно как то разбивать предложение и токенизировать каждое слово по отдельности, но до конца так и не понял концепцию. Объясните как к этому подступиться вообще?

Вопрос задан 19 мая
90 просмотров

Комментировать

Подписаться 1 Сложный Комментировать

Помогут разобраться в теме Все курсы

Инглекс

Курс-система «Английский 360°»

1 день

Далее
Skyeng

Английский для IT профессий: карьера в IT за границей

12 недель

Далее
Stepik

English for Project Managers

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 248 просмотров
1

ответ
Google

+1 ещё

Простой
Как в Google переводчике вводить текст на английском при переводе текста с русского?
- 1 подписчик
- 17 февр.
- 209 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 141 просмотр
0

ответов
Машинный перевод с одного языка на другой

Простой
Перевод текста с картинками?
- 1 подписчик
- 30 дек. 2025
- 122 просмотра
1

ответ
CSV

+1 ещё

Простой
Как перевести большие CSV файлы через ИИ?
- 1 подписчик
- 27 нояб. 2025
- 270 просмотров
2

ответа
Joomla

+1 ещё

Средний
Перевод таблицы SQL или статьи Joomla расширением?
- 1 подписчик
- 17 сент. 2025
- 85 просмотров
0

ответов
Машинный перевод с одного языка на другой

Простой
Какие есть переводчики для Windows с вкладками и историей перевода?
- 1 подписчик
- более года назад
- 85 просмотров
0

ответов
Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 4 подписчика
- более года назад
- 1160 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- более года назад
- 114 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2026-05-20 02:13:15

Единица перевода в английском — не токен, а multiword expression: find out, look up, give up. При клике на found не надо сразу искать find — берёшь dep parse предложения, смотришь есть ли у глагола партикл с dep_ == "prt" (spaCy умеет из коробки). В "found it out" out всё равно прилинкован к found через dep, независимо от позиции — это именно работа парсера, не регэкс. Словарь хранишь отдельными статьями: find → искать, find out → выяснять, look up → смотреть в словаре.

Answer 2 · 2026-06-17 15:05:47

К каждом языке есть такое.
И в сербском тоже.
Ты знаешь про "полако"?
Знаешь, что от интонации "Э!" зависит весь контекст общения?

Кто писал собственный NLP-пайплайн перевода слов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт