@mmaximov97
веб-программист

Как написать программу для отслеживания изменений на сайте?

Всем доброго времени суток!

Существует интернет-портал, на котором расположен реестр организаций. Размещение в виде таблицы. Изменения в реестре происходят по мере изменения ситуации на рынке. Вступления/исключения и т.д.

Куда гуглить и что изучать, чтобы написать программу, которая бы мониторила изменения на сайте, а потом могла бы обрабатывать эту информацию? На чем лучше писать? Есть ли уже готовые решения для таких целей?
  • Вопрос задан
  • 554 просмотра
Решения вопроса 2
sim3x
@sim3x
beutifulsoup - не используем

Если сервер норм - он будет отдавать время последнего изменения
Если нет
requests
забираем страницу
делаем хеш с содержимого, проверяем изменилась ли страница
делаем БД (набор файлов json, yaml)

scrapy
если страниц много (тысячи)
большу часть делает сам

Парсер хтмл - lxml
Ответ написан
obezh
@obezh
Python разработчик
Пишем парсер на питоне, парсим весь сайт, сохраняем в удобоваримом виде, будь то бд или таблицы.
Для парсинга есть requests, beautifulsoap etc... Потом либо по расписанию, либо ручками запускаем снова парсер, только уже не сразуохраняем данные, а сравниваем с нашей готовой базой и, в зависимости от целей, вносим изменения в нашу бд или сохраняем изменения в другую таблицу. Дальше уже таскаем инфу как душе угодно.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы