Отслеживание изменений контента сайта. (C#)

Здравствуйте. Пишу курсовую работу. Подскажите какие алгоритмы подойдут для оптимального отслеживания контента? На данный момент изучено - парсинг XML, и сравнение хэшей картинок. Подскажите источники, где можно почитать о методах отслеживания и алгоритмах, если источник с примерами - было бы идеально.
Спасибо.
  • Вопрос задан
  • 3168 просмотров
Пригласить эксперта
Ответы на вопрос 2
Gorily
@Gorily
Очень интересный вопрос. Вы пытаетесь сделать определение для любого сайта или конкретного? Если у любого, то некоторый блок на странице или вся страница?
Сразу всплывающие подводные камни:
1. Как быть с сайтами, где контент подгружается динамически (Ajax)?
2. Если на странице есть вывод текущего времени или зависимого от него состояния (например: "написано 10 минут назад") - это считается изменением или нет? Если нет, то как универсально отслеживать и игнорировать?
и т.д.
Или вы просто в курсовой описываете все возможные алгоритмы? Если так, то вам бы посмотреть в сторону алгоритмов работы кэш серверов.
Ответ написан
@Qiev
Можете сделать по аналогии с готовым решением, реализованным на Python
https://thp.io/2008/urlwatch/
Функционал:
построчно показывает изменения на веб-странице, подобно тому как это делается в системе контроля версий (diff).
Имеет механизмы фильтрации динамического контента.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы