Библиотека для морфологического разбора фраз на русском языке?

Question

Павел Коноплицкий @badlittleduck

UX/UI дизайнер. Основатель и руководитель 1Point

Библиотека для морфологического разбора фраз на русском языке?

Какой библиотекой можно сделать морфологический разбор фраз на русском языке?

Нужно, что-нибудь, что можно использовать на php.

Подробнее. На входе два списка фраз — основной и расширенный. Надо каждой фразе из основного списка сопоставить все возможные фразы из расширенного списка с учетом морфологии русского языка.

Например, основной список (одномерный массив):

1. купить медицинские весы

2. ортопедический матрас

Расширенный список (одномерный массив):

1. купить медицинские весы в москве

2. купить медицинские весы в перми

3. покупка медицинских весов

4. продажа весов медицинских

5. медицинские весы купить

6. ортопедические матрасы

7. матрас ортопедическй

8. продажа матрасов ортопедических

9. матрас полуторный

На выходе надо понять, какие из фраз расширенного списка включают в себя какую-нибудь фразу из основного списка. Чтобы в итоге получить следующий список (двумерный массив):

1. купить медицинские весы:

1.1. купить медицинские весы в москве

1.2. купить медицинские весы в перми

1.3. покупка медицинских весов

2. ортопедический матрас:

2.1. ортопедические матрасы

2.2. матрас ортопедическй

2.3. продажа матрасов ортопедических

Понимаю, что в результате морфолог. анализа фраз возможный ошибки и не все варианты фраз будут связаны. Даже готов смириться с такой ошибки, когда будут связаны фразы «китобойный промысел» и «китайская промышленность».

Вопрос задан более трёх лет назад
7971 просмотр

Комментировать

Подписаться 10 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 468 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 155 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2474 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 346 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2012-11-02 04:34:55

Смотрите функцию similar_text():
$sovpalo=similar_text($stroka1,$stroka2,$prc);
Возвращаемое значение: — кол-во совпавших символов.
Проверка:

if ($prc>10 && $sovpalo>=mb_strlen($stroka1)/2) {
/*
(если процент совпадения больше 10 и кол-во совпавших символов больше половины)
помещаем в подпункт...
*/
}

Answer 2 · 2012-11-02 09:43:49

Для лемматизации и склонения слов есть phpmorphy. Вероятно, работу с фразами придётся делать самому.

Answer 3 · 2013-11-18 16:24:21

В узкой тематике эффективно использование конечных автоматов.

В широкой будет очень много ошибок, нужно сортировать по тематикам. После применять лемматизацию и далее оценивать через схожесть пословно.

В итоге получается достаточно медленно на выборках более 50 фраз.

По этой причине может быть эффективнее использовать леммы путем урезания суффиксов, приставок и окончания выделяя только корни (как для англоязычных фраз), далее искать похожие. По производительности будет приемлемо, но ошибок будет больше.

Answer 4 · 2017-04-23 14:02:05

Nikita Tarasov @tarasnick1

SEO оптимизатор

morpher.ru

Ответ написан более трёх лет назад

Комментировать

Библиотека для морфологического разбора фраз на русском языке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт