Автоматизация подбора тегов к статье, как?

Question

Vadim1989 @Vadim1989

Автоматизация подбора тегов к статье, как?

Коллеги, подскажите по такому вопросу:
Имеем издание, ежедневно выпускаем 5+ статей, на момент общее количество более 1500.

Сейчас теги к статье проставляются руками, периодически устраиваем сессии анализа и по ним видно что путь не совсем верный, так как многие теги банально упускаются (+желание некоторых авторов "забить" на этот момент).

Вопрос - существуют какие-либо системы, которые бы позволили упростить данный процесс, например предлагать теги по содержанию статьи? И как вообще этим пользуются крупные поставщики медиа-контента (риа итп.)?

P.s. Используем Elastic в качестве поисковика, по видео понял что он может как-то в этой задаче помогать, но знаний не особо хватает (а точнее - их нет)

Спасибо!

Вопрос задан более трёх лет назад
250 просмотров

Комментировать

Подписаться 5 Средний Комментировать

Помогут разобраться в теме Все курсы

Школа Сильных Программистов

Без ерунды

5 недель

Далее
Нетология

Нейросети для бизнеса и управленцев

6 недель

Далее
Skillbox

Нейросети для бизнеса

2 месяца

Далее

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Автоматизация

+1 ещё

Простой
Как настроить термостаты теплого пола и радиаторные головки в одной комнате в системе Tuya?
- 1 подписчик
- 09 нояб.
- 102 просмотра
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 40 просмотров
0

ответов
3D

+2 ещё

Простой
Pbcad. Как правильно экспортировать и добавлять свои пользовательские блоки, чтобы они отображались корректно?
- нет подписчиков
- 04 нояб.
- 49 просмотров
0

ответов
Google Sheets

+1 ещё

Средний
Правильно ли настроен скрипт в гугл шитс?
- 1 подписчик
- 29 окт.
- 88 просмотров
0

ответов
Telegram

+2 ещё

Простой
Как настроить репост из телеграм канала в вк группу?
- 2 подписчика
- 21 окт.
- 238 просмотров
1

ответ
Автоматизация

+1 ещё

Простой
Как изучать SCADA и программирование ПЛК самостоятельно дома?
- 1 подписчик
- 19 сент.
- 134 просмотра
1

ответ
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 238 просмотров
2

ответа
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 2 подписчика
- 20 авг.
- 193 просмотра
3

ответа
Python

+1 ещё

Простой
Как имитировать нажатие пкм в неактивное окно DirectX?
- 1 подписчик
- 15 авг.
- 106 просмотров
1

ответ
Автоматизация

+1 ещё

Средний
Как парсить/взять результат решения капчи в BAS?
- 1 подписчик
- 09 авг.
- 76 просмотров
0

ответов
Показать ещё Загружается…

Инженер по автоматизации тестирования (AQA Java)

DCloud

До 250 000 ₽

Team Lead | Команда автоматизации закупок

SMALL

от 4 000 до 6 000 $

Аналитик

Gen AI Solutions

от 150 000 до 250 000 ₽

Answer 1 · 2020-01-21 15:16:32

Существуют.
Кажется первопроходцем был Reuters. Решение основано на использовании методов машинного обучения. Сначала на соответствующем наборе размеченных статей строиться некоторый классификатор. Затем он используется для отнесения новых статей к той или иной рубрике или рубрикам, что в точности соответствует задаче тегирования.
Ну вот, на вскидку, просто как пример:
https://towardsdatascience.com/applying-machine-le...
Elaslic тут очень далеко - только как хранилище информации.
Кстати, Reuters хвастался что он на внедрении этого метода экономит миллионы, в основном на зарплате разогнанного отдела почти на сотню сотрудников, которые ранее там тегировали новости вручную.

Answer 2 · 2020-01-21 15:16:35

Не знаю точно как подобное реализуется на практике, но я бы сделал следующим образом:
1. Определил бы конечный набор тегов.
2. Сделал бы словарь ключевых слов к каждому из этих тегов - синонимы, слова из предметной области и т.д.
3. Анализировал бы каждую статью на наличие ключевых слов и при достаточном количестве совпадений предлагал бы добавить тег в статью.

Answer 3 · 2020-01-21 17:13:42

Система такая делается крайне просто.
1. Сплитятся все слова в статье и приводится к нижнему регистру.
2. Составляется указатель: список этих слов и процент соответствия групп слов для конкретной статьи.
3. Происходит разметка до тех пор, пока процент соответствия не будет выше порогового значения.
4. Когда очередная статья проверяется - происходит сопоставление и автоматом расставляются теги.

Автоматизация подбора тегов к статье, как?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт