@kayart

Как правильно проверять, была ли уже спарсена информация?

Допустим, есть список статей. У статьи есть заголовок и дата.
При первоначальном парсинге в базу добавляются вообще все статьи.
Затем при запуске скрипта в базу нужно добавлять только те статьи, которые ещё не были спарсены.

Вопрос: как правильно и как наиболее эффективно проверять, есть статья в базе или нет? За какой параметр цепляться? Или делать какой-то уникальный ID на основании каких-то данных?
  • Вопрос задан
  • 64 просмотра
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
non progredi est regredi
в общем случае
делать какой-то уникальный ID на основании каких-то данных?
, только гыгы, оно не поможет - вам то все равно нужно скачать чтобы сравнить

обычно на сайте у статей есть некий уникальный ИД, вот к нему и цепляйтесь
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы