Как организовать автоматизированный сбор данных с сайтов?
Есть такая задача:
Собирать с разных сервисов отзывы и оценки. желательно автоматизированно и строить на основании этого отчеты. Не у всех сайтов есть API, который позволяет это делать, по сему придется выдирать информацию непосредственно со страниц.
Можно конечно написать кучу разных парсеров, а потом долго и мучительно их править при каждом изменении дизайна, но есть ощущение, что для подобных задач есть готовое решение.
Как вариант дабы не сильно мучаться с самим парсером, если используется php, то рекомендую библиотеку phpQuery, для java - jsoup. На вопрос как отслеживать изменения в верстке: вешать обработчик который будет говорить что в данных завелся NULL, присылать на почту письмо, и действовать. Если конечно не много ресурсов нужно отслеживать