Как найти дубликаты новостей, полученных из разных источников?

Question

Dahock @Dahock

Как найти дубликаты новостей, полученных из разных источников?

Добрый день.
Есть источники информации, публикующие одну и ту же новость, но в разное время и с разным описанием.
Есть база данных/кэш, содержащих только уникальные новости.
Необходимо распознавать дубликаты новостей, т.е. если данная новость (её контекст) уже есть в БД, то новость игнорируем. Если нет - добавляем в БД/кэш.

Например, источник А опубликовал новость.
Необходимо её сравнить по контексту (смыслу) с новостями из БД/кэша (предполагаем, что надо сравнивать не со всеми новостями, а с публикациями за последние несколько суток).
Как это сделать?

Вопрос задан более года назад
240 просмотров

Комментировать

Подписаться 2 Сложный Комментировать

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Алгоритмы

+1 ещё

Простой
Как в квантовый компьютер вводятся данные?
- 1 подписчик
- 12 авг.
- 146 просмотров
3

ответа
Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 74 просмотра
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 75 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 141 просмотр
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 230 просмотров
3

ответа
Нейронные сети

+2 ещё

Простой
Можно ли закешировать результат загрузки gguf модели в Forge?
- 1 подписчик
- 27 июл.
- 41 просмотр
1

ответ
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 55 просмотров
0

ответов
Нейронные сети

Простой
Как подключить Context7 к claude.ai?
- 1 подписчик
- 23 июл.
- 64 просмотра
0

ответов
Нейронные сети

+2 ещё

Средний
Как правильно подобрать модель, VAE и T5 чтобы запустить Flux1 gguf версию?
- 1 подписчик
- 16 июл.
- 59 просмотров
2

ответа
Нейронные сети

+2 ещё

Простой
Что мешает создать сугубо инженерную генеративную нейросеть?
- 1 подписчик
- 14 июл.
- 217 просмотров
3

ответа
Показать ещё Загружается…

Разработчик бэкенда в команду коммуникационной платформы

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик в буткемп Core Infrastructure

Яндекс • Москва

от 300 000 до 490 000 ₽

Разработчик бэкенда сервисов телефонии

Яндекс • Москва

от 300 000 до 490 000 ₽

Answer 1 · 2023-12-28 12:26:16

Так-же как и в индексировании документов. Строится некое векторное представление документа.
И потом похожие векторы - указывают на одинаковые (99.9%) документы. Методик векторизации
много. В основном это токенизация слов и свертывание их к хешу.

Answer 2 · 2024-01-03 17:54:00

в таких ситуациях разумно использовать метод косинусного сходства

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Пример вычисления косинусного сходства для двух текстов
text1 = "какая-то новость и ее описание"
text2 = "какая-то новость и ее описание (дубль)"

# Создаем объект CountVectorizer для преобразования текстов в векторы
vectorizer = CountVectorizer().fit([text1, text2])
vectorized_text = vectorizer.transform([text1, text2])

# Вычисляем косинусное сходство между векторами
cosine_sim = cosine_similarity(vectorized_text)

после просто ставишь if cosine_sim > 95(%) и удаляешь дубликат

Как найти дубликаты новостей, полученных из разных источников?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт