Помогите с алгоритмом по сравнению предложений

Question

Макс @AloneCoder

[object Object]

Помогите с алгоритмом по сравнению предложений

Коллеги, обращаюсь к вам за помощью. Имеем несколько тысяч предложений, среди них необходимо сгруппировать схожие по семантике. Как я вижу это сейчас: я разбиваю все предложения на слова, убираю служебные части речи, стемматизирую их и нахожу для каждого ключ soundex. Далее по этим кодам как-то нужно найти наиболее схожие предложения. Именно с последним этапом у меня сложности. Голова кипит. Буду рад подсказке куда копать дальше или другим идеям для реализации этого

Вопрос задан более трёх лет назад
3527 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Stepik

Язык программирования PHP

1 неделя

Далее

Пригласить эксперта

Ответы на вопрос 4

5 комментариев

Комментировать

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Как сделать это?
- 1 подписчик
- вчера
- 154 просмотра
2

ответа
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 208 просмотров
1

ответ
PHP

+1 ещё

Простой
Как на PHP пушнуть в ассоциативный массив?
- 1 подписчик
- 05 дек.
- 180 просмотров
1

ответ
PHP

Простой
Проблема с PDO LIKE?
- 1 подписчик
- 04 дек.
- 165 просмотров
0

ответов
PHP

Простой
При попытке регистрации на сайте выдаёт ошибку A PHP Error was encountered. Что делать?
- 1 подписчик
- 03 дек.
- 142 просмотра
2

ответа
PHP

Простой
Как исправить include в php 8.3?
- 1 подписчик
- 02 дек.
- 298 просмотров
3

ответа
PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 29 нояб.
- 281 просмотр
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 431 просмотр
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 257 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 227 просмотров
0

ответов
Показать ещё Загружается…

Fullstack-разработчик (PHP, Vue.js)

Qwintry

от 1 200 до 2 000 $

Разработчик PHP (junior / стажер) - Laravel

CRM для НКО Мост данных

от 30 000 до 110 000 ₽

Веб-разработчик (PHP) в продукт из сферы FinTech

ITWORK AGENCY • Москва

До 500 000 ₽

Answer 1 · 2012-10-18 16:57:13

DemiurgeOrion @DemiurgeOrion

Хм, я не специалист, но возможно вам поможет поиск нечетких дубликатов текстов?
habrahabr.ru/post/65944/

Ответ написан более трёх лет назад

5 комментариев

Answer 2 · 2012-10-18 22:11:02

Не подскажу с советом, но отвечающим наверняка было бы полезно знать на каком языке исходные предложения. И что насчет возможных синонимов.

Answer 3 · 2012-10-19 00:54:14

То, что вы хотите называется кластеризацией. Есть много разных статей про методы кластеризации — погуглите. Я как-то делал нечто похожее на основе байесовской теоремы, но для этого надо вручную выделить категории документов и обучить фильтр на какой-то выборке — работало неплохо.

В использовании soundex что-то я особого смысла не вижу, вы же не слова похожие ищите, а тексты. Можно считать crc32 от слов — точность не сильно снижает, а расчеты ускоряются очень хорошо.

Answer 4 · 2012-10-19 11:03:35

Попробуйте просто k-means кластеризацию по вашим ключам. Только надо задать априори количество классов.

Помогите с алгоритмом по сравнению предложений

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт