Какие есть варианты автоматической простановки тегов?

Есть большое количество статей. Появилась необходимость проставить к ним теги. Какие есть варианты чтобы автоматизировать процесс?
Я думал выносить в теги часто встречаемые слова в статье, но это могут быть слова-мусор, к тому же ключевые слова могут встречаться всего один раз. Более того в тегах могут быть фразы из двух или трех слов. В этом случае в теги придется выносить все слова и возможные фразы, а это несколько сотен - не подходит.

Рассматривается вариант со стоп-словами и заранее составленному списку возможных тегов. По ходу анализа статей эти массивы будут пополняться. Для каждой статьи будет ручная модерация, просто хочется ускорить работу частично автоматизировав этот процесс.

Возможно вам встречались готовые алгоритмы или сервисы с апи (пусть даже платным) или без него, которые умеют составлять семантическое ядро?
  • Вопрос задан
  • 3364 просмотра
Пригласить эксперта
Ответы на вопрос 2
dabich
@dabich
Web Developer
Можно составлять отдельно списки тегов которые более подходят под статьи. В ручную пополнять список. Потом использовать этот список, отслеживать что чаще всего встречается в тексте. Если не найдет, то предложить ввести в ручную и записать в список. Так будет этот список расти и всё меньше можно будет вводить.
Впрочем то что и писали. На мой взгляд самое оптимальное.
Ещё вот можно почитать статью о алгоритме поиска слов похожих по смыслу: habrahabr.ru/post/110078 .
Ответ написан
Комментировать
foxmuldercp
@foxmuldercp
Системный администратор, программист, фотограф
Ох, наверное лучше посмотреть как это делают всякие поисковые движки, когда по ключевику выдают список файлов, где это слово содержится
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы