Выделение похожих частей текстов

Интересуют алгоритмы анализа текстов для новостных сайтов — выделение групп «близких» по составу новостей. Конкретно алгоритмы расчета веса «похожести» двух строк.
  • Вопрос задан
  • 3570 просмотров
Решения вопроса 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Попросите у яндекса или гугла алгоритм шинглов или просто скачайте!
Также, есть более лучший алгоритм, описанный в моём ответе: Как определить похожесть двух строк?
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
briskly
@briskly
выделение групп «близких» по составу новостей

Это скорее задачи кластеризации а не похожести.
Готовые библиотеки на php не скажу, а если интересен python то запросто.
Известные алгоритмы
к-ближайших соседей
неотрицательная факторизация матриц
и много много других
Подробнее можно почитать тут:
scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы