Как определить тематику текста на php?

Какой бы алгоритм решения такой задачи вы предложили если бы перед вами стояла такая задача?
Очищали бы предварительно текст или сразу искали бы какие-то слова по словарю? Стали бы использовать сфинкс или без него обошлись? Приветствуются любые идеи.
  • Вопрос задан
  • 2606 просмотров
Пригласить эксперта
Ответы на вопрос 2
DmitryPRG
@DmitryPRG
PHP программист
Я бы решал ее наверно через сторону парсинга текста.
собираете весь текст и обрезая окончания подсчитываете какие слова встречаются больше всего на странице.

Отделяем все предлоги и слова, которые никак не относятся к какой либо из категорий и анализируем оставшуюся выдачу.

со временем можно научить систему по самым популярным словам определять тематику.

+ отдельно бы парсить и разбирать заголовки. в них тоже много инфы содержится.
title. keywords, description
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Сфинкс - тут вообще ни при чём!)

Нужно построить процентное соответствие различных цепочек слов и их тематик (обучить НС).
При анализе текста:
1. Перемножить: каждое слово с тематическим коэффициентом, все совпавшие тематики, все совпавшие цепочки.
2. И выбрать пересечение с самым большим коэффициентом.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы