Автоматизация подбора тегов к статье, как?

Question

Vadim1989 @Vadim1989

Автоматизация подбора тегов к статье, как?

Коллеги, подскажите по такому вопросу:
Имеем издание, ежедневно выпускаем 5+ статей, на момент общее количество более 1500.

Сейчас теги к статье проставляются руками, периодически устраиваем сессии анализа и по ним видно что путь не совсем верный, так как многие теги банально упускаются (+желание некоторых авторов "забить" на этот момент).

Вопрос - существуют какие-либо системы, которые бы позволили упростить данный процесс, например предлагать теги по содержанию статьи? И как вообще этим пользуются крупные поставщики медиа-контента (риа итп.)?

P.s. Используем Elastic в качестве поисковика, по видео понял что он может как-то в этой задаче помогать, но знаний не особо хватает (а точнее - их нет)

Спасибо!

Вопрос задан более трёх лет назад
257 просмотров

Комментировать

Подписаться 5 Средний Комментировать

Помогут разобраться в теме Все курсы

Grand School

Начальник региональной Службы автоматизированной системы передачи данных

256 ???

Далее
Нетология

Операционный менеджер

9 месяцев

Далее
Академия Эдюсон

Нейросети в строительстве

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1034 просмотра
6

ответов
Тестирование ПО

+1 ещё

Простой
Уходить из тестирования или есть смысл поиска работы в 2026 году? С учетом, что мануал?
- 1 подписчик
- 16 июн.
- 320 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 323 просмотра
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 419 просмотров
3

ответа
Автоматизация

Средний
Добавление Distr в образ Windows?
- 2 подписчика
- 26 мая
- 356 просмотров
2

ответа
Windows

+2 ещё

Средний
Дублирование действий на клавиатуре и мышке во всех окнах?
- 1 подписчик
- 30 апр.
- 422 просмотра
1

ответ
Аналитика

Средний
DAX \ Power BI как сделать меру через промежуточную таблицу?
- 2 подписчика
- 08 апр.
- 74 просмотра
1

ответ
Автоматизация

Простой
Как настроить автоматизацию действий в игре майнкрафт в программе HETIC X1000?
- 1 подписчик
- 11 мар.
- 248 просмотров
1

ответ
Тестирование ПО

+1 ещё

Простой
Почему не нажимается кнопка по методу click() в Selenide?
- 1 подписчик
- 04 февр.
- 128 просмотров
0

ответов
Показать ещё Загружается…

Answer 1 · 2020-01-21 15:16:32

Существуют.
Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
Ну вот, на вскидку, просто как пример:
https://towardsdatascience.com/applying-machine-le...
Elaslic тут очень далеко - только как хранилище информации.
Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.

Answer 2 · 2020-01-21 15:16:35

Не знаю точно как подобное реализуется на практике, но я бы сделал следующим образом:
1. Определил бы конечный набор тегов.
2. Сделал бы словарь ключевых слов к каждому из этих тегов - синонимы, слова из предметной области и т.д.
3. Анализировал бы каждую статью на наличие ключевых слов и при достаточном количестве совпадений предлагал бы добавить тег в статью.

Answer 3 · 2020-01-21 17:13:42

Система такая делается крайне просто.
1. Сплитятся все слова в статье и приводится к нижнему регистру.
2. Составляется указатель: список этих слов и процент соответствия групп слов для конкретной статьи.
3. Происходит разметка до тех пор, пока процент соответствия не будет выше порогового значения.
4. Когда очередная статья проверяется - происходит сопоставление и автоматом расставляются теги.

Автоматизация подбора тегов к статье, как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт