Задать вопрос

Как определить тематику текста на php?

Какой бы алгоритм решения такой задачи вы предложили если бы перед вами стояла такая задача?
Очищали бы предварительно текст или сразу искали бы какие-то слова по словарю? Стали бы использовать сфинкс или без него обошлись? Приветствуются любые идеи.
  • Вопрос задан
  • 2607 просмотров
Подписаться 3 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
DmitryPRG
@DmitryPRG
PHP программист
Я бы решал ее наверно через сторону парсинга текста.
собираете весь текст и обрезая окончания подсчитываете какие слова встречаются больше всего на странице.

Отделяем все предлоги и слова, которые никак не относятся к какой либо из категорий и анализируем оставшуюся выдачу.

со временем можно научить систему по самым популярным словам определять тематику.

+ отдельно бы парсить и разбирать заголовки. в них тоже много инфы содержится.
title. keywords, description
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Сфинкс - тут вообще ни при чём!)

Нужно построить процентное соответствие различных цепочек слов и их тематик (обучить НС).
При анализе текста:
1. Перемножить: каждое слово с тематическим коэффициентом, все совпавшие тематики, все совпавшие цепочки.
2. И выбрать пересечение с самым большим коэффициентом.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы