@Ankozar

Как лучше организовать парсинг и какие могут быть ограничения от целевых сайтов?

Делаю новостной сервис. Суть - автоматический парсинг новостей отовсюду, откуда только нужно юзерам.

Сейчас у меня 48 источников. Парсинг происходит так: раз в минуту сервер пинает пхп-скрипт который берёт из базы "следующий" источник и парсит его. Получается, что сейчас один источник просматривается раз в 48 минут.

Сайты сгруппированы по регионам. В одном регионе, в перспективе, могут быть сотни сайтов. А всего в системе - тысячи. Я хз, дорастет проект до таких масштабов или нет, но текущий метод парсинга уже не удобен.

Нужно получать новости максимально оперативно. Во-первых, это вопрос актуальности. Целевая аудитория сайта - журналисты. Во-вторых, за час может на сайте появиться несколько новостей. И тогда при показе "последних" новостей пользователь видит несколько новостей из одной рубрики. Будто других нет.

Вопрос: как организовать парсинг?

Проверять каждый сайт раз в минуту/2/5 минут?
Но здесь получается большая нагрузка на сервер в перспективе. И может такая активности стать причиной блокировки моего сервера со стороны целевого сайте? Может ещё какие ограничения есть.

Распределить по категориям? Но тут все равно долго может получиться, если в какой-либо категории много сайтов.
В общем, я не знаю, какой подход нужен в этом случае.
  • Вопрос задан
  • 133 просмотра
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы