Определение схожести тематики текстов по тегам

Question

Дмитрий Сергеев @JetMaster

Алгоритмы

Определение схожести тематики текстов по тегам

Немного вводных данных. При добавлении статьи из текста удаляется пунктуация и слова длинной меньше 2-х символов. Дальше слова приводятся к нормальной форме (ед.число, им.падеж) и удаляется всё кроме существительных и латинских слов, считаются вхождения оставшихся слов в тексте, получается эдакие автоматические теги + кол-во их повторений в тексте. Дальше тэги вставляются в две таблички:

CREATE TABLE IF NOT EXISTS `tags` (
  `tag_id` int(10) unsigned NOT NULL AUTO_INCREMENT,
  `content_type` enum('news','article') NOT NULL,
  `tag_name` varchar(120) NOT NULL,
  `tag_counter` int(10) unsigned NOT NULL DEFAULT '0' COMMENT 'Number of tag in all texts',
  PRIMARY KEY (`tag_id`),
  UNIQUE KEY `content_type` (`content_type`,`tag_name`),
  KEY `tag_counter` (`tag_counter`)
) ENGINE=InnoDB  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1;

и

CREATE TABLE IF NOT EXISTS `tagstat` (
  `tag_id` int(10) unsigned NOT NULL,
  `content_type` enum('news','article') NOT NULL,
  `content_id` int(10) unsigned NOT NULL,
  `tag_counter` int(10) unsigned NOT NULL DEFAULT '0' COMMENT 'Number of tag in certain text',
  KEY `content_type` (`content_type`,`content_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

В конце концов у нас есть теги статьи, кол-во вхождений тега в статье, общее кол-во вхождений тега по всем текстам. Как бы теперь получить схожие статьи?
Пробовал метод Jaccard similarity/index, уж очень «долгий» запрос получается

Вопрос задан более трёх лет назад
3729 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 333 просмотра
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 395 просмотров
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 224 просмотра
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 287 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 430 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 409 просмотров
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 298 просмотров
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 257 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 239 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 393 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-09-05 16:58:02

Странный подход для определения схожести текстов. Записывая только частоту «тегов», вы нарушаете последовательность слов в предложениях, и результат будет скорее отражать схожесть частот слов в статьях, а не их реальную схожесть по тексту. Две разных по контенту статьи, но с одинаковыми частотами слов-тегов в них (например, на одну тематику) — по вашему алгоритму будут «схожи».
Для подобной задачи (определение схожести текстов) чаще применяется и более эффективен алгоритм шинглов: www.codeisart.ru/python-shingles-algorithm/

Определение схожести тематики текстов по тегам

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт