Как выявить языковую пару из 2-х документов?

Question

swcalc @swcalc

Автоматизация обработки текста

Как выявить языковую пару из 2-х документов?

Здравствуйте, есть 2 документа, каким образом (в теории, без кода = ) ), можно выявить, что 2 слова в английском документе равны 3 словам в русскоязычном?

Необходимы хотя бы зачатки идеи ))).
Как сверять, по символьно - бред, составление предшествующей базы?
Например hello = (привет||здравствуй||здравствуйте) и от этого отталкиваться?

Вопрос задан более трёх лет назад
264 просмотра

8 комментариев

Подписаться 2 Оценить 8 комментариев

d'Ivan @2ord

Что понимается под знаком равенства между словами? Лингвистика - это неточная наука.

Написано более трёх лет назад
swcalc @swcalc Автор вопроса

Роман: Отобразил равное значение между двумя словами )

Написано более трёх лет назад
d'Ivan @2ord

Для человека имеет значение смысл, получаемый по прочтении слов, а не сами слова. Скажем, заменив одно слово другим, смысл может остаться прежним.
В английском языке часто используется пара слов: turn on, take out. Как трактовать тогда количество относительно передаваемого смысла для другого языка?

Написано более трёх лет назад
swcalc @swcalc Автор вопроса

Роман: Вот, об этом я и говорю, как выявить данную пару, когда не известно заранее, как фраза будет выглядеть на другом языке )). Есть 2 документа, переведенных на 100% в ручную, но как отобрать пары?)))
Чтобы сохранить значение в контексте )))

Написано более трёх лет назад
swcalc @swcalc Автор вопроса

Роман: Единственный-ли путь создание базы из слов, возможного перевода, чтобы по ним уже искать на втором языке?

Написано более трёх лет назад
d'Ivan @2ord

Для эвристического анализа наличие такой базы возможно поможет. Но комбинаторика всё равно загубит идею словаря.

Написано более трёх лет назад
swcalc @swcalc Автор вопроса

Роман: Что же делать, с Вашей точки зрения?)

Написано более трёх лет назад
d'Ivan @2ord

swcalc: Нет у меня идей. Увы.
Возможно на "детских" текстах сработает, а на чуть более сложных - сломается.
Лингвистика граничит с психологией, а потому сложна в автоматизации.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1С-программист

10 месяцев

Далее
Skillbox

Профессия 1C-разработчик

8 месяцев

Далее
Hi-TECH Academy

KL 004.2.4 Kaspersky SD-WAN

2 дня

Далее

Решения вопроса 1

3 комментария

swcalc @swcalc Автор вопроса

Я думаю в сторону контекстных решений, то есть брать наиболее подходящий контекст (из прошлого опыта) и переводить наиболее подходящими "символосочетаниями" )))

Написано более трёх лет назад
Владимир Сергеев @moozooh

Ну да, это распознание паттернов + самообучение, то есть наиболее подходящая задача для нейронной сети. Хотя есть, например, системы автоматизированного перевода (CAT), которые могут даже в офлайне осуществить рудиментарный предварительный контекстный перевод на основе коллективной переводческой памяти и скормленного им корпуса двуязычных текстов, но там, скорее всего, используются _очень_ мощные эвристические алгоритмы, на которые потрачены десятки и сотни тысяч человекочасов. При этом результат такого перевода, если нет (почти) полного контекстного совпадения, удручает.

Написано более трёх лет назад
abcyu @abcyu

Владимир Сергеев:
Разумеется, смысла писать все это вручную самому нет на сегодня.
Машинным переводом занимаются уже давно.
Наверняка уже существуют специализированные инструменты.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг.
- 183 просмотра
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- 18 апр.
- 457 просмотров
4

ответа
HTML

+2 ещё

Простой
Как выполнить ëфикацию без сторонних библиотек?
- 2 подписчика
- 28 февр.
- 701 просмотр
2

ответа
Автоматизация обработки текста

Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
- 2 подписчика
- 19 февр.
- 83 просмотра
2

ответа
Нейронные сети

+1 ещё

Средний
Как определить ключевые слова из текста?
- 1 подписчик
- 09 янв.
- 85 просмотров
2

ответа
Поисковая оптимизация

+4 ещё

Средний
Как заполнить таблицу excel?
- 1 подписчик
- более года назад
- 249 просмотров
4

ответа
Автоматизация обработки текста

Простой
Динамическая + стачическая сортировка одновременно возможна?
- 1 подписчик
- более года назад
- 65 просмотров
0

ответов
Регулярные выражения

+2 ещё

Простой
Как обрезать часть строки в Excel (Пример прикрепляю)?
- 2 подписчика
- более года назад
- 234 просмотра
2

ответа
Python

+3 ещё

Средний
Какие существуют библиотеки Python для комплексной обработки текста, включая исправление ошибок и удаление лишних символов?
- 1 подписчик
- более года назад
- 638 просмотров
1

ответ
Автоматизация обработки текста

+1 ещё

Сложный
Кто знает user-friendly инструмент для поиска по файлам с помощью языковых моделей (RAG)?
- 4 подписчика
- более года назад
- 275 просмотров
2

ответа
Показать ещё Загружается…

SRE/DevOps инженер

Сбер • Москва

от 200 000 до 300 000 ₽

Database Administrator / DBA

Playerok

от 300 000 ₽

Backend Developer

Playerok

от 400 000 ₽

Что понимается под знаком равенства между словами? Лингвистика - это неточная наука.
Роман: Отобразил равное значение между двумя словами )
Для человека имеет значение смысл, получаемый по прочтении слов, а не сами слова. Скажем, заменив одно слово другим, смысл может остаться прежним.
В английском языке часто используется пара слов: turn on, take out. Как трактовать тогда количество относительно передаваемого смысла для другого языка?
Роман: Вот, об этом я и говорю, как выявить данную пару, когда не известно заранее, как фраза будет выглядеть на другом языке )). Есть 2 документа, переведенных на 100% в ручную, но как отобрать пары?)))
Чтобы сохранить значение в контексте )))
Роман: Единственный-ли путь создание базы из слов, возможного перевода, чтобы по ним уже искать на втором языке?
Для эвристического анализа наличие такой базы возможно поможет. Но комбинаторика всё равно загубит идею словаря.
Роман: Что же делать, с Вашей точки зрения?)
swcalc: Нет у меня идей. Увы.
Возможно на "детских" текстах сработает, а на чуть более сложных - сломается.
Лингвистика граничит с психологией, а потому сложна в автоматизации.

Answer 1 · 2015-12-07 20:44:51

Если нужно хорошее коммерческое решение, то понадобится нейронная сеть, которой будут скармливаться сотни тысяч языковых пар на уровне грамотных и цельных тематических текстов с переводом на нужный язык, и длительный период обучения. Со временем она должна научиться распознавать наиболее частые для контекста смысловые эквиваленты на уровне предложений и, вероятно, типичных словосочетаний. Но думаю, то, что даже компаниям уровня Гугла, у которых есть свой веб-сервис перевода и доступ к петабайтам языковых пар, пока не под силу сделать нечто сопоставимое работе даже переводчика-любителя — хороший показатель сложности задачи.

Если ничего хорошего не нужно, то можно попробовать состряпать простенький переводчик из открытых словарей, где уже заложено большинство частоиспользуемых языковых пар на уровне слов и словосочетаний. Только это уже реализовано много кем («Промт» помните?) и абсолютно бесполезно для перевода больших объёмов текста.

Точно переводить по словам, конечно, не получится никогда, так же как нельзя пересадить корове ногу оленя и надеяться, что она от этого быстрее побежит.

Как выявить языковую пару из 2-х документов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт