Ответы пользователя nirvimel по тегу «Scrapy»

Задать вопрос

Ответы пользователя по тегу Scrapy

Как сделать парсер на python учитывая что переход по страницам осуществяется на javascript?
nirvimel @nirvimel
В данном случае достаточно установить печенку AmListSearch в значение PageNumber=N, запросить станицу по этому же адресу и получить в ответе список, открытый сразу со страницы N.
Например:
$ curl --cookie "AmListSearch=PageNumber=12" https://bankrot.fedresurs.ru/ArbitrManagersList.aspx > bankrot.html $ firefox bankrot.html

А вообще, в подобных случаях следует действовать по примерно такому алгоритму:
Через FireBug (или встроенную панель разработчика Tools->Web_Developer->Network) отловить исходящий HTTP-запрос на действие, вызывающее подгрузку AJAX-контента.
Определить через какой параметр передается переменная (номер страницы, например). Это может оказаться не только параметр GET-запроса, но и поле POST-формы, или печенка, или даже произвольный кастомный HTTP-заголовок.
Определить формат и структуру ответа. Это может быть произвольный HTML-фрагмент (чаще всего), или целый HTML-документ, или XML, или JSON (самый правильныйЪ вариант с точки зрения разработки), или вообще произвольный текстовый формат, который парсится скриптом после получения (именно такой бредовый формат имеем в данном случае, я даже не стал его разглядывать, сразу попробовал обходные пути и нашел же один).
Написать скрипт, который формирует запросы, подобные тем, что уходят со страницы, и парсит ответы.

Ответ написан более трёх лет назад

1 комментарий
1 комментарий

Самые активные сегодня

VoidVolker
- 4 ответа
- 0 вопросов
Mors Clamor
- 2 ответа
- 0 вопросов
SmeliyR
- 1 ответ
- 1 вопрос
Ocelot
- 1 ответ
- 0 вопросов
#
- 1 ответ
- 0 вопросов
ElxkoT
- 1 ответ
- 0 вопросов

Как сделать парсер на python учитывая что переход по страницам осуществяется на javascript?

Войдите на сайт