Использовать phantomjs или пройтись циклом по миллиону страниц?
Хочу сохранить данные с сайта, в котором присутствует элементы, у которых нет прямого адреса в атрибутах, например пейджеры, кнопка "Подробнее" (попап). Просто cURL и htmlsimpledomparser будет не достаточно для имитации клика.
При этом я знаю адреса конечных страниц, которые выглядит подобным образом /index.php?id=1362
Идея пройтись в цикле по порядку от 1 до 1.000.000 (cURL), при этом на дальнейший разбор (parser) отправлять только страницы, у которых есть валидный html-title (к сожалению все страницы отдают код 200, и невозможно их отличить по-другому).
Как считаете хороша ли такая идея, чтобы не мудрить с phantomjs, и пройтись танком по миллиону страниц?
Пришла мысль, что можно разделить на разное время запуск цикла, меняя порядок. Постепенно пройтись по 1-50000, потом 50000-10000 и т.д. Сохранить все TRUE адреса в файл, а потом передать их парсеру на разбор нужных мне данных.