Здравствуйте! Заинтересовался темой парсинга и более-менее простые вещи делаю с помощью инструментов curl или casperjs. Затруднения вызывают сайты, которые формируются динамически. Например есть сайт, который формируется посредством ajax-запросов. При его изучении с помощью отладчика хрома, обнаружил, что при каждом нажатии кнопки "больше" на страницу подгружаются по 20 наименований товаров, в отладчике каждый раз появляется запись типа xhr - видимо это и есть xmlHttpRequest. Рассмотрение заголовков мне ничего не сказало - они все одинаковые, единственное отличие в размере килобайт и есть еще данные формы, в котором есть переменная page с номером страницы. Поделитесь опытом, как это использовать, как выявить запрос и можно ли с помощью курла как-то отправить его и получить данные? Есть ли какая-то методика или инструменты, которые могут облегчить задачу?
Предпологаю что xhr шлёт запрос типа domain.com/article?page=2 и т.д и при этом известно что на 1 страницу 20 записей, осталось научится определять, какая страница последняя. Если конечно нигде нет подсказки сколько всего страниц или всего записей.
Ну конечно вы можете при помощи curl'а сформировать post запрос с номером страницы и запросить данные. Можете и xhr заголовок добавить. "X-Requested-With" => "XMLHttpRequest",