@AntonGe

Как отфильтровывать дубликаты новостей из разных источников?

Парсим новости с 10 источник, на всех 10 +-3 , источниках будет опубликовано одна и та же новость. Как отфильтровать так чтоб у нас новость появилась только один раз. Есть идея проверять на оригинальность есть текст не оригинален то значит данная новость у нас уже есть. Есть ли еще какие нибудь способы решить данный вопрос?
  • Вопрос задан
  • 54 просмотра
Пригласить эксперта
Ответы на вопрос 2
@bkosun
Алгоритм шинглов
https://ru.wikipedia.org/wiki/%D0%90%D0%BB%D0%B3%D...

Расстояние Левенштейна
https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D...
Ответ написан
Комментировать
makingfeels
@makingfeels
Без матана тут не обойтись)
Например
https://habrahabr.ru/post/110078/
https://habrahabr.ru/post/324540/
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы