Как грамотно выводить и определять похожие новости на сайте?

Question

Gasoid @Gasoid

Алгоритмы

Как грамотно выводить и определять похожие новости на сайте?

Задача к главной новости на сайте выводить список похожих новостей. Как определять и искать такие новости? По тегам? Или названию отсеивать?

Вопрос задан более трёх лет назад
4381 просмотр

Комментировать

Подписаться 11 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Go-разработчик с нуля + нейросети

9 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 314 просмотров
0

ответов
Алгоритмы

Простой
Как реализовать поиск слов в файлах?
- 2 подписчика
- 06 апр.
- 383 просмотра
3

ответа
Алгоритмы

Простой
Как распознавать полосу для робота на шахматной доске?
- 1 подписчик
- 19 мар.
- 217 просмотров
1

ответ
Алгоритмы

Простой
Какие данные берет функция для генерации случайного числа?
- 1 подписчик
- 18 февр.
- 275 просмотров
4

ответа
C++

+1 ещё

Простой
Почему не решает задачу?
- 1 подписчик
- 05 февр.
- 425 просмотров
1

ответ
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт. 2025
- 401 просмотр
1

ответ
Алгоритмы

Простой
Как решать алгоритмические хакатоны и учится?
- 1 подписчик
- 27 окт. 2025
- 293 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Как правильно реализовать обновление порядка (поле order) в бд?
- 1 подписчик
- 19 окт. 2025
- 250 просмотров
2

ответа
Алгоритмы

Простой
Как открыть файл сжатый с помощью алгоритма Brotli на пк?
- 1 подписчик
- 19 окт. 2025
- 234 просмотра
0

ответов
JavaScript

+2 ещё

Простой
Как решить задачку из контеста?
- 1 подписчик
- 13 окт. 2025
- 390 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2013-04-28 16:17:01

Теги это хорошо. Но не всегда применимо. Не всегда они есть, и в достаточном количества.
Название может сильно отличаться, хотя тоже немаловажно.
Если проект на php то библиотеку скорее лучше брать phpmorphy.
ну или стеммер какой, но тогда слова в качестве тегов пользователю не выведешь.

Первое что приходит в голову это примерно такой алгоритм:
1 — приводим тексты к базовой форме
2 — отбрасываем все стоп-слова по словарю. Можно еще по морфемам от phpmorphy отбирать, но это ИМХО излишнее. Проще словарь ручками под себя оттюнинговать.
3 — прогоняем через синонимизацию (опционально, на самом деле от тематики зависит и качества словаря, иногда уж лучше и не гонять).
4 — вычисляем релевантность наших слов тексту. Я бы взял самый простой алгоритм с тошнотой. Только добавил бы весу словам из заголовка статьи и если есть большое желание добавил бы веса с учетом выданных phpmorphy морфем. (к примеру прилагательным давал бы меньше вес чем существительным)
5 — отбираем топ-N наших ключевых слов, и привязываем их каждой статье. Колво ключей выберете исходя из Вашей задачи, но по опыту думаю это будет между 5 и 10.
6 — теперь самое сложное. Нужно сделать запрос. Тут нужно курить и экспериментировать. ИМХО стоит вычислять некий «рейтинг» близости, тут или количество совпавших слов из нашего топа подойдет, или сделать это колво взвешенным (в зависимости от позиции слова в списке или от его веса в тексте). Дальше уже сильно все зависит от реализации, от ORM и т.п.

ПЫСЫ: на счет морфологической омонимии — лично я в подобных случаях тупо брал первый попавшийся вариант. Суммарно это очень незначительно влияло на результат, а разрешение морфологической омонимии это еще та задача :)

Answer 2 · 2013-04-27 02:01:30

Реализовал подобное на solr использовал more like this запрос. В качестве поискового поля задал полный текст статьи

Answer 3 · 2013-04-30 21:20:55

Если у вас классическая связка php+MySQL то phpmorphy — самое то.
Прогоняете весь текст через phpmorphy, добавляете его в поле таблицы MySQL — предварительно создав индекс FULLTEXT для этого поля (тип, ес-но, должен быть VARCHAR)
в SQL запросе для определения «похожести» используйте конструкцию MATCH (col1,col2,...) AGAINST (expr [search_modifier])
например

SELECT *  FROM news WHERE MATCH (tags)  AGAINST ('слово другое третье' ) > 20

здесь, tags — то самое поле, а 20 — минимальная релевантность (это значение зависит от вашего контента)

Как грамотно выводить и определять похожие новости на сайте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт