Разбор и анализ текста на японском языке, с чего начать?

Question

Olzhas Senpai @amajisenapai

code for fun

Обработка естественного языка

Разбор и анализ текста на японском языке, с чего начать?

имеется предложение с кандзи и обычнои канои, нужно разобрать каждое предложение и определить его грамматическую конструкцию. по возможности давать ссылку на перевод каждой части или/и определение грамматических элементов. для начала уровень N5.

пример, снизу под sentence analysis, сам саит как пример.
обычное предложение:
私たちは彼をよき先輩として尊敬している。
(были бы в предложении пробелы!!! вопроса бы не было)

подскажите с чего начать, базовые основы, python библиотеки?
как определять грамматические конструкции и правила?

сам пока собираю переводы слов, значение кандзи и т. д. с интернета.
парсю пока все в shelve.

Вопрос задан более трёх лет назад
698 просмотров

3 комментария

Подписаться 2 Оценить 3 комментария

Վիտալի Լագունով @vitaliy2

О, спасибо за лайк, я если честно, даже не ожидал, что Вы прочитаете мой ответ =) У меня такое чувство, что реально интересоваться этой темой и размышлять на эту тему может только маньяк)

Вы реально поняли мой ответ?

Написано более трёх лет назад
Վիտալի Լագունով @vitaliy2

Я, кстати, там в коментах добавил ещё один коммент по поводу частицы は, как определяеть конец границы её действия.

Написано более трёх лет назад
Վիտալի Լագունով @vitaliy2

> как определять грамматические конструкции и правила?

Если писать код самому, нужно, разумеется, знать все эти правила и запрогать их (алгоритм указал). Т. е. Вы должны знать всю грамматику японского.

Если же нужно готовое решение, то готовых я не знаю, я могу только потеоретизировать на тему алгоритмов для разбора.

> были бы в предложении пробелы!!! вопроса бы не было

Расстановка пробелов — не очень сложная операция (алгоритм тоже указал). А вот грамматический разбор предложения и установление зависимости слов — очень трудная (алгоритм указал).

> сам пока собираю переводы слов, значение кандзи и т.‌ ‌д. с интернета.

Можно скачать весь словарь JMDict в машиночитаемом формате. Он для этого и создавался, чтобы его можно было скачать.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 2

4 комментария

Վիտալի Լագունով @vitaliy2

Пример 2 (разбор с начала):
趣味を仕事にしたら趣味は無くなることになるだろう — исходная фраза
[趣味を仕事にしたら趣味は無くなることになるだろう — находим определение, кладём в стек "["
[趣味を仕事にしたら趣味は無くなることになるだろう — находим ещё одно определение
[趣味を仕事にしたら] <趣味は無くなることになるだろう — находим определяемое, убираем из стека "[", закрываем квадратную скобку. Также したら указывает на то, что текущая группа является определением последующей части предложения, поэтому добавляем в стек "<". Так произошло, потому что условная форма говорит нам о том, что это сложное предложение.
[趣味を仕事にしたら] <趣味は <無くなることになるだろう — находим определение 趣味は. は говорит о том, что текущее определение определяет последующее предложение, а значит кладём в стек "<".
[趣味を仕事にしたら] <趣味は <[無くなることになるだろう — находим определение 無く. Мы знаем, что это определение, а не определяемое, т. к. это наречие. Раз мы нашли "висящее" определение, добавляем скобку "[" и кладём её в стек. Когда мы найдёт первое определяемое, мы сможем убрать "[" из стека.
[趣味を仕事にしたら] <趣味は <[無くなる] ことになるだろう — находим определяемое なる, убираем "[" из стека.
[趣味を仕事にしたら] <趣味は <([無くなる] ことに) なるだろう — находим определяемое ことに. Раз мы нашли определяемое без "висячего" определения, это значит, что текущая группа теперь является определением для этого определяемого. Выражаем это круглыми скобками. При этом работа со стеком для круглых скобок нам не требуется (но тут мог использоваться другой стек для того, чтобы понять, где начинается наша текущая группа).
[趣味を仕事にしたら] <趣味は <(([無くなる] ことに) なるだろう) — находим определяемое なるだろう. Аналогично добавляем круглые скобки. Определением этого слова будем являться текущая группа, а из предыдущего пункта мы знаем, что текущая группа — ([無くなる]ことに).
[趣味を仕事にしたら] <趣味は <(([無くなる] ことに) なるだろう)>> — мы нашли конец части сложного предложения, что позволяет нам убрать две скобки "<" из стека. Разбор окончен.
(趣味を仕事にしたら) (趣味は ((((無くなる) ことに) なるだろう))) — заменяем квадратные и треугольные скобки на круглые.
(趣味を仕事にしたら) (趣味は (((無くなる) ことに) なるだろう)) — упрощаем выражение, убирая "лишние" скобки. Как это ни удивительно, но у нас вышел абсолютно тот же результат, как при разборе с конца.
(趣味を仕事にしたら)(趣味は(((無くなる)ことに)なるだろう)) — тоже самое без пробелов. Компьютер теперь может понимать японскую речь, ну а мы прокачали своё знание японского =)

С каким проблемами мы будем сталкиваться:
1. Нарушение порядка слов (в японском на самом деле определения могут стоять после определяемого)
2. Проблемы с частицей が
3. Проблемы с опусканием сказуемого (думаю, лёгкая проблема).
4. И др., например, синонимы

PS. Из-за нарушение порядка слов вместо скобок придётся использовать что-то другое, например, стрелочки + скобки. Чаще всего нарушение порядка идёт темой (пример: "好きだよ、私は"), но может быть вызвано и другими определениями (пример: "やっと出来た、宿題を"). Теоретически вынести за конец предложения можно даже несколько определений, хотя на практике такое почти не встречается. Кстати, интересно подметить, что это говорит о том, что в японском по факту любой порядок слов — можно поставить слова в каком угодно порядке. Конечно, это немного преувеличено, т. к. при изменении порядка изменяется оттенок, а также мы не можем так просто разрубать или перемешивать слова в сложных конструкциях, а также в японском есть стандартный порядок, но тем не менее забавная вещь. Куда хочешь, туда и ставь слово.

PS. Возможно, в реальной жизни разбор нужно делать с начала, а не с конца, чтобы упростить разбор на слова.

PS. Задача разбора предложения — очень сложная задача для реализации, а также очень трудоёмкая для написания по разным причинам, а также требует высококвалифицированного программиста, а также имеет очень много серьёзных подводных камней, которые я здесь не перечислил. Кроме того, непонятно, зачем это нужно. Ну вот попытались Вы понять смысл предложения. А дальше что с ним делать? Для перевода на другие языки я не уверен, что это годится. А кроме перевода где ещё это может быть нужно? Для написания бота? Хотя может где-то нужно, не знаю… Лично я написал этот ответ с теоретической точки зрения, т. к. люблю японский и программирование.

Написано более трёх лет назад
Վիտալի Լագունով @vitaliy2

Кстати, если взглянуть на зависимости в этом предложении:
(趣味を仕事にしたら)(趣味は(((無くなる)ことに)なるだろう))

… то может показаться, что японский сложный для понимания человеком. На самом деле это не так, т. к. основной принцип прост: определение обычно стоит сразу перед определяемым. Благодаря этому в реальности всё невероятно просто. Из этого правила 4 исключения (которые я перечислил выше), но они все легки — は вводит тему, сложное предложение можно тупо рассматривать как 2 простых, а перечисления сразу идентифицируют себя как перечисления (в русском же у Вас не возникает проблем с перечислениями). Поэтому не надо смотреть на сложность скобок — в реальности всё было бы легко даже при отсутствии интуиции, а ведь на самом деле интуиция присутствует, а значит в реальности всё до невероятности просто.

Написано более трёх лет назад
Վիտալի Լագունով @vitaliy2

PS. У Вас может возникнуть вопрос, как в частице は мы определили, что глагол является концом части сложного предложения, а не началом причастного оборота. Легко: если поюзаны частицы けど、のに、から、ので или условные формы глагола, либо же предложение тупо кончилось, то это конец части. Если же у нас, допустим, глагол + существительное, то эту связку лучше рассматривать не как сложное предложение, а как причастный оборот, а значит は продолжает своё действие даже несмотря на наличие глагола.

Тогда тут может возникуть другой вопрос: а что, если сам автор решил не распространять действие так далеко, может ли оно закончиться раньше? Ответ: я не знаю, и как определить — тоже не знаю, т. к. по смыслу оба варианта, вероятно, будут абсолютно идентичны, а значит определить как оно на самом деле, вероятно нельзя (либо тут нужен опытный лингвист, чтобы он сказал, может ли は распространять действие меньше).

Написано более трёх лет назад
Վիտալի Լագունով @vitaliy2

PS. Я, вероятно, обману с конструкцией сущのない — она, вероятно, используется не только со словом ない, но и с другими глаголами.

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Машинный перевод с одного языка на другой

+1 ещё

Сложный
Кто писал собственный NLP-пайплайн перевода слов?
- 1 подписчик
- 19 мая
- 90 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Где найти мне датасет для обучения малюсенькой LLM?
- 2 подписчика
- 07 апр.
- 247 просмотров
1

ответ
Машинное обучение

+1 ещё

Средний
Может, у кого-то есть дампы с реальными наименованиями товаров/услуг и кодами ОКПД2 для обучения NLP-модели?
- 1 подписчик
- 16 янв.
- 140 просмотров
0

ответов
Обработка естественного языка

Средний
Как создать мультипризнаковую мноклассовую модель классификации текстов?
- 4 подписчика
- более года назад
- 1160 просмотров
0

ответов
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- более года назад
- 114 просмотров
1

ответ
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- более года назад
- 211 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Какие есть Алгоритмы поиска синонимов?
- 3 подписчика
- более года назад
- 1711 просмотров
3

ответа
Машинное обучение

+1 ещё

Простой
Какой датасет лучше для обучения?
- 2 подписчика
- более года назад
- 195 просмотров
1

ответ
Искусственный интеллект

+2 ещё

Простой
Как исправить ошибку, возникающую при загрузке модели в rust_bert без файла vocab.txt?
- 1 подписчик
- более года назад
- 73 просмотра
1

ответ
Обработка естественного языка

Средний
Почему модель llama предсказывает только один класс?
- 2 подписчика
- более года назад
- 159 просмотров
1

ответ
Показать ещё Загружается…

О, спасибо за лайк, я если честно, даже не ожидал, что Вы прочитаете мой ответ =) У меня такое чувство, что реально интересоваться этой темой и размышлять на эту тему может только маньяк)

Вы реально поняли мой ответ?
Я, кстати, там в коментах добавил ещё один коммент по поводу частицы は, как определяеть конец границы её действия.
> как определять грамматические конструкции и правила?

Если писать код самому, нужно, разумеется, знать все эти правила и запрогать их (алгоритм указал). Т. е. Вы должны знать всю грамматику японского.

Если же нужно готовое решение, то готовых я не знаю, я могу только потеоретизировать на тему алгоритмов для разбора.

> были бы в предложении пробелы!!! вопроса бы не было

Расстановка пробелов — не очень сложная операция (алгоритм тоже указал). А вот грамматический разбор предложения и установление зависимости слов — очень трудная (алгоритм указал).

> сам пока собираю переводы слов, значение кандзи и т.‌ ‌д. с интернета.

Можно скачать весь словарь JMDict в машиночитаемом формате. Он для этого и создавался, чтобы его можно было скачать.

Answer 1 · 2020-07-17 11:41:58

Для начала Вы понимаете, что японская грамматика полностью основывается на определении + определяемом? Даже сложные предложения (сложносочинённые и сложноподчинённые) можно рассматривать как определение одного предложения другим. Причём определение всегда стоит перед определяемым (на самом деле есть исключения, но мы здесь их рассматривать не будем — с ними итак всё понятно, можно будет расширить алгоритм по аналогии).

Если понимаете, я бы предложил такой алгоритм:

1. Вначале разбираем предложение на слова. Делается это от первого символа к последнему. Для реализации алгоритма нужны:
1) Словарь со списком слов, причём в словаре должны быть пометки о частях речи + дополнительная информация, например, v1/v5 для глаголов.
2) Список правил для всех форм для всех частей речи в Вашей программе (делается вручную). Например, прошедшая форма v1-глагола 食べる образуется взятием основы (кот. здесь образуется отбросом る) и добавлением た. Получится 食べた. Благодаря этому, когда мы встретим в речи 食べた, мы сможем понять, что это прошедшая форма глагола 食べる. Именно такой принцип используется в расширении Rikaichan для браузера (которое позволяет наводить указатель мыши на слова и смотреть их значения, а также говорит, в какой форме стоит слово).
3) Список исключений (очень мал)

В Вашем случае после разбора на слова получится такое предложение:
私たちは彼をよき先輩として尊敬している

2. Идём с конца (можно и с начала, но для реализации будет проще с конца). В конце у нас ожидаемо стоит сказуемое, являющееся определяемым. Для разбора предложения мы хотим установить зависимости между словами. Это сродно расстановке круглых скобок, чтобы явно обозначить, какое слово/предложение зависит от какого.

Итак, вот пример разбора:
私たちは彼をよき先輩として尊敬している — исходная фраза.
私たちは彼をよき先輩として尊敬している — выделение первого определяемого. Мы знаем, что это определяемое, т. к. это глагол.
私たちは彼をよき先輩として尊敬している — выделение определения. 尊敬 является определением слову している. Мы это узнали, т. к. сущ + する говорит о том, что определение определяет прямо следующее за ним слово, а не более позднее слово или определённую фразу. Скобки не ставим: будем считать, что когда скобок нет, все определения являются определениями последнему слову в этой группе.
私たちは彼をよき先輩として尊敬している — 先として является вторым определением к слову している, т. к. сущとして + глагол говорит о том, что сущとして определяет этот глагол. Аналогично, скобки пока не нужны, т. к. оба этих определения относятся к последнему слову в данной группе.
私たちは彼をよき先輩として尊敬している — よき является третьим определением к слову している, т. к. наречение + глагол говорит нам об этом.
私たちは彼をよき先輩として尊敬している — 彼を является четвёртым определением к слову している, т. к. сущを + глагол говорит нам об этом.
私たちは (彼をよき先輩として尊敬している) — 私たちは является определением ко всей впереди-стоящей фразы до конца части сложносочинённого или сложноподчинённого предложения. Об этом нам говорит частица は. Соответственно, мы обязаны поставить здесь скобки, т. к. в противном случае 私たちは указывало бы на слово している, а мы хотим, чтобы оно указывало на фразу 彼をよき先輩として尊敬している. Ну вот и готово, мы сделали разбор фразы!
私たちは(彼をよき先輩として尊敬している) — тоже самое без пробелов.

Пример 2 (более сложный):
趣味を仕事にしたら趣味は無くなることになるだろう (после разбития на слова: 趣味を仕事にしたら趣味は無くなることになるだろう)

趣味を仕事にしたら趣味は無くなることになるだろう — выделение первого определяемого.
趣味を仕事にしたら趣味は無くなることになるだろう — слово ことに является определением для なるだろう (об этом нам говорит конструкция "сущに + глагол").
趣味を仕事にしたら趣味は無く (なることに) なるだろう — слово なる является определением для こと (об этом нам говорит конструкция "глагол + сущ"). Поскольку なる относится не к последнему слову в данной группе, мы вынуждены поставить скобки, чтобы было видно, что なる относится к ことに. Как результат у нас вышло, что вся фраза なることに является определением слова なるだろう. В реальной жизни оно так и есть, значит мы всё делаем правильно.
趣味を仕事にしたら趣味は ((無くなる) ことに) なるだろう — слово 無く является определением для なる (об этом нам говорит конструкция "наречие + глагол"). Обозначаем это с помощью скобок, т. к. если бы мы их не поставили, 無く прилегало бы к конечному слову なるだろう. Кстати, ВАЖНО: мы видим, что это третье слово подряд, которое прилегает прямо к следующему слову (т. е. имеем конструкцию вида a → b → c → d → e и т. д.). В этом нет ничего удивительного: большинство слов будут прилегать прямо к следующему, и есть только 4 исключения из этого правила (будут описаны ниже).
趣味を仕事にしたら趣味は (((無くなる) ことに) なるだろう) — слово 趣味は прилегает к всей следующей части сложносочинённого предложения. Об этом нам говорит частица は — она вводит тему для всего последующего предложения, а значит сущは является определением для всего предложения. Обозначаем это скобками: явно стало видно, что 趣味は определяет всё, что стоит далее.
趣味を仕事にしたら (趣味は (((無くなる) ことに) なるだろう)) — здесь мы видим глагол в условной форме, что говорит нам о сложносоч/сложноподч предложении, а значит данный глагол снова определяет всё предложение. Соответственно, берём всё предложение в скобки.
趣味を (仕事にしたら) (趣味は (((無くなる) ことに) なるだろう)) — слово 仕事に определяет したら, ибо это сущに + глагол.
(趣味を仕事にしたら) (趣味は (((無くなる) ことに) なるだろう)) — слово 趣味を также определяет したら, ибо это сущを + глагол. Впихиваем его внутрь скобки.
Ну вот и готово. Мы получили все зависимости слов в предложении. Для каждого слова или подфразы мы можем сказать, какое слово/подфразу она определяет. Скобки полностью расставлены. Если убрать пробелы, получится (趣味を仕事にしたら)(趣味は(((無くなる)ことに)なるだろう)). Зная эти зависимости и значения слов, компьютер может понять смысл фразы.

В большинстве случаев определения определяли прямо следующее за ним слово. Но есть случаи, когда это не так:
1. は — влияет на всё последующее (до конца части сложного предложения).
2. Сложные предложения с помощью частиц けど、のに、から、ので и форм したら、すれば — также влияет на всё последующее.
3. Перечисления — несколько определений указывают на одно и тоже слово, т. к. принцип "влияет прямо на следующее слово" здесь немного нарушается.
4. Большая сложность с частицей が. Здесь уже объяснять не буду — додумайте сами. PS. Вроде, неодназностей нет в конструкциях типа сущのない/сущがない. Вероятно, кроме ない можно использовать и другие глаголы.
5. Может быть есть и другие случаи, про которые я не вспомнил.

В целом в итоге принцип должен понятен, думаю.

Разбирать предложение необязательно с конца, можно и с начала, но так может быть сложнее для реализации. Примеры:
私たちは彼をよき先輩として尊敬している — исходная фраза
私たちは <彼をよき先輩として尊敬している — отделяем первое определение. Также мы встретили частицу は, которая является особым случаем, поэтому введём треугольную скобку, которая говорит о том, что текущее определение влияет на всю фразу (до конца части сложного предложения). Закроем эту скобку, когда достигнем этой части. Положим эту скобку в стек: когда достигнем конца части сложного предложения, закроем скобку на этом месте и уберём её из стека.
私たちは <[彼をよき先輩として尊敬している — находим новое определение 彼を. Мы видим, что это именно определение, а не определяемое, т. к. это сущを. Поскольку текущая группа ещё не завершилось (определяемое ещё не найдено), введём квадратные скобки, которые сообщают нам, что мы в поиске определяемого. Аналогично, положим эту скобку в стек, чтобы успешно закрыть её, как только мы найдём первое определяемое. PS. На самом деле аналогичную операцию мы обязаны были проделать и с 私たちは, но поскольку в японском не бывает более одного определения на は (т. е. не бывает более одной темы), я опустил квадратную скобку — её роль итак успешно выполнит треугольная скобка.
私たちは <[彼をよき先輩として尊敬している — находим новое определение (よき). Мы знаем, что это определение, т. к. это наречие.
私たちは <[彼をよき先輩として尊敬している — находим новое определение (先輩として).
私たちは <[彼をよき先輩として尊敬している — находим новое определение (尊敬).
私たちは <[彼をよき先輩として尊敬している] — наконец-то находим определяемое. Убираем из стека "[" и закрываем квадратную скобку. В стеке остаётся "<".
私たちは <[彼をよき先輩として尊敬している]> — мы видим, что часть сложного или несложного предложения закончилась: это является триггером к закрытию треугольной скобки в стеке.
私たちは ((彼をよき先輩として尊敬している)) — разбор предложения окончен. Заменяем треугольные и квадратные скобки на круглые.
私たちは (彼をよき先輩として尊敬している) — упрощаем выражение (удаляем лишние скобки).
Готово. Без пробелов будет 私たちは(彼をよき先輩として尊敬している). Мы можем использовать этот результат для компьютерного понимания речи. Как видно, результат вышел аналогичным, как когда мы делали разбор с конца, а не с начала предложения. При этом писать алгоритм именно для компьютера было немного сложнее.

[ПРОДОЛЖЕНИЕ ОТВЕТА В ПЕРВЫХ КОММЕНТАРИЯХ]

Answer 2 · 2017-01-13 21:02:42

Из книжки Python.Text.Processing.with.NLTK.2.0.Cookbook.Jacob.Perkins.2010.pdf

>>> babelfish.available_languages
['Portuguese', 'Chinese', 'German', 'Japanese', 'French', 
'Spanish', 'Russian', 'Greek', 'English', 'Korean', 'Italian']

Копай NLTK, там есть api к Babelfish, может есть и еще к чему.

Кстати тыц - хоть здесь и много битых ссылок, но хотя бы видны названия. Ну и тыц.

Разбор и анализ текста на японском языке, с чего начать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт