@man_without_face
студент

Как определять похожесть текста?

Предположим, что у нас есть твиты или заголовки статей. Хотелось бы понимать, что вот эти 10 новостей или твитов относятся к одному и тому же (например, к компании или событию). Как это делается? Хотя наверное немного глупый вопрос, но хотя бы как называется данный круг задач? Впервые в нём.

Кстати. Полагаю, что агрегаторы новостей примерно так и делают, т.е. они же их как-то группируют, верно?
  • Вопрос задан
  • 425 просмотров
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
non progredi est regredi
это делается не одной функцией

извлекаются сущности, сравниваются тексты и т.п.
см. https://tech.yandex.ru/tomita/

для коротких можно и реения попроще, вроде поиска по отстемменому тексту
Ответ написан
Комментировать
@AlexSku
не буду отвечать из-за модератора
Есть ещё алгоритм Jaro-Winkler'а.
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Называется тематическая кластеризация - идёт учёт синонимов и их "весов" между собой в зависимости от присутствия других рядом стоящих конкретных слов в связанной цепочке (публикации, комментарии или одном предложении).

Подобное, можно делать с помощью выделения сущностей (существительных и имён собственных: фио человека, названия и т.д.) и извлечения контекстных зависимостей.

Получить близкий поиск по таким цепочкам - можно здесь.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы