Задать вопрос

Выделение похожих частей текстов

Интересуют алгоритмы анализа текстов для новостных сайтов — выделение групп «близких» по составу новостей. Конкретно алгоритмы расчета веса «похожести» двух строк.
  • Вопрос задан
  • 3572 просмотра
Подписаться 15 Оценить Комментировать
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия Fullstack веб-разработчик на JavaScript и PHP
    20 месяцев
    Далее
  • Хекслет
    PHP-разработчик
    10 месяцев
    Далее
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
Решения вопроса 1
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Попросите у яндекса или гугла алгоритм шинглов или просто скачайте!
Также, есть более лучший алгоритм, описанный в моём ответе: Как определить похожесть двух строк?
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
briskly
@briskly
выделение групп «близких» по составу новостей

Это скорее задачи кластеризации а не похожести.
Готовые библиотеки на php не скажу, а если интересен python то запросто.
Известные алгоритмы
к-ближайших соседей
неотрицательная факторизация матриц
и много много других
Подробнее можно почитать тут:
scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы