Ответы, понравившиеся пользователю sivesil25 — Хабр Q&A

Задать вопрос

Лайки

Парсинг по расписанию и аплоад в БД?

rPman @rPman

Тебе нужен критерий, как отличать старые записи (дубликаты или не изменившиеся, тебе виднее что там) от новых.

Если удобного идентификатора нет, то обычно самое простое, - формировать из сравниваемых данных строку одинаковым способом, и получать из нее хеш сумму (md5 более чем подходит, если данных не 16-значное количество, т.е. не нужно заботиться о коллизиях), его и используй как идентификатор и храни где-то списком как предыдущие значения и сравнивай с ново загруженной, прямо во время анализа. Записи, хеш сумма которых, не была найдена в записях, помещай в базу данных (ну или обновляй значения, если речь идет о модификации а не добавлении новых).

Ответ написан более года назад

Комментировать

Комментировать

Самые активные сегодня

VoidVolker
- 2 ответа
- 0 вопросов
guatemala812
- 1 ответ
- 1 вопрос
ky0
- 2 ответа
- 0 вопросов
DevilDuncan
- 0 ответов
- 1 вопрос
Dmitry
- 1 ответ
- 0 вопросов
Yappy1
- 1 ответ
- 0 вопросов