@Bjornie
Изучаю Python

Использовать phantomjs или пройтись циклом по миллиону страниц?

Хочу сохранить данные с сайта, в котором присутствует элементы, у которых нет прямого адреса в атрибутах, например пейджеры, кнопка "Подробнее" (попап). Просто cURL и htmlsimpledomparser будет не достаточно для имитации клика.

При этом я знаю адреса конечных страниц, которые выглядит подобным образом /index.php?id=1362

Идея пройтись в цикле по порядку от 1 до 1.000.000 (cURL), при этом на дальнейший разбор (parser) отправлять только страницы, у которых есть валидный html-title (к сожалению все страницы отдают код 200, и невозможно их отличить по-другому).

Как считаете хороша ли такая идея, чтобы не мудрить с phantomjs, и пройтись танком по миллиону страниц?

Скрипт буду запускать с десктопа из консоли.
  • Вопрос задан
  • 299 просмотров
Пригласить эксперта
Ответы на вопрос 1
AMar4enko
@AMar4enko
Ну если вас на десятом запросе не забанят - то почему бы нет?
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы