Автоматизация подбора тегов к статье, как?

Коллеги, подскажите по такому вопросу:
Имеем издание, ежедневно выпускаем 5+ статей, на момент общее количество более 1500.

Сейчас теги к статье проставляются руками, периодически устраиваем сессии анализа и по ним видно что путь не совсем верный, так как многие теги банально упускаются (+желание некоторых авторов "забить" на этот момент).

Вопрос - существуют какие-либо системы, которые бы позволили упростить данный процесс, например предлагать теги по содержанию статьи? И как вообще этим пользуются крупные поставщики медиа-контента (риа итп.)?

P.s. Используем Elastic в качестве поисковика, по видео понял что он может как-то в этой задаче помогать, но знаний не особо хватает (а точнее - их нет)

Спасибо!
  • Вопрос задан
  • 225 просмотров
Пригласить эксперта
Ответы на вопрос 3
@dmshar
Существуют.
Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
Ну вот, на вскидку, просто как пример:
https://towardsdatascience.com/applying-machine-le...
Elaslic тут очень далеко - только как хранилище информации.
Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.
Ответ написан
Комментировать
@Cheypnow
Не знаю точно как подобное реализуется на практике, но я бы сделал следующим образом:
1. Определил бы конечный набор тегов.
2. Сделал бы словарь ключевых слов к каждому из этих тегов - синонимы, слова из предметной области и т.д.
3. Анализировал бы каждую статью на наличие ключевых слов и при достаточном количестве совпадений предлагал бы добавить тег в статью.
Ответ написан
Комментировать
xmoonlight
@xmoonlight
https://sitecoder.blogspot.com
Система такая делается крайне просто.
1. Сплитятся все слова в статье и приводится к нижнему регистру.
2. Составляется указатель: список этих слов и процент соответствия групп слов для конкретной статьи.
3. Происходит разметка до тех пор, пока процент соответствия не будет выше порогового значения.
4. Когда очередная статья проверяется - происходит сопоставление и автоматом расставляются теги.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы