Как организовать автоматизированный сбор данных с сайтов?

Есть такая задача:

Собирать с разных сервисов отзывы и оценки. желательно автоматизированно и строить на основании этого отчеты. Не у всех сайтов есть API, который позволяет это делать, по сему придется выдирать информацию непосредственно со страниц.
Можно конечно написать кучу разных парсеров, а потом долго и мучительно их править при каждом изменении дизайна, но есть ощущение, что для подобных задач есть готовое решение.

Кто нибудь знает такое?
  • Вопрос задан
  • 4344 просмотра
Пригласить эксперта
Ответы на вопрос 2
@mikiAsano
На аналогичный вашему вопрос, был ответ https://code.google.com/p/boilerpipe/
Думаю и вам поможет.
Ответ написан
Комментировать
evsmusic
@evsmusic
Как вариант дабы не сильно мучаться с самим парсером, если используется php, то рекомендую библиотеку phpQuery, для java - jsoup. На вопрос как отслеживать изменения в верстке: вешать обработчик который будет говорить что в данных завелся NULL, присылать на почту письмо, и действовать. Если конечно не много ресурсов нужно отслеживать
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы