Парсинг https+post (iaai.com)?

Занимаюсь парсингом американских автоаукционов, т.к. по какой-то причине api у них нет, хотя им это было бы экономически выгодно, ведь он нужен реселлерам, которые бы выигрывали у них лоты.
copart.com уже позади

И следующий идет iaai.com тут все значительно интересней, дело в том что тут используется https и ajax(методом POST). C ajax проблем нет, т.к. прекрасно понимаю что это и как это. Но вот https меня немного смущает, в основном тем что я не могу понять что же шлет браузер на сервер.
И так что имеем:

Страница www.iaai.com/Vehicles/Search.aspx?RefinerSetName=V...

Задача, попасть с этой страницы на следующую страницу(«next>» снизу в пагинации);
Что знаю:

Для начала я проверил нужны ли куки для перехода на следующую страницу: стер их и попробовал перейти на след страницу в браузере, на что в ответ получил ошибку, в принципе этого и ожидал(с copart.com на эти грабли уже наступил сначала). Методом постепенной чистки cookies определел что

единственная кука которая нужна для этих операций это кука сессии та что ASP.net (вторая не нужна)

В общем вот как это выглядит.
06eac7336dc73c5b09010d6052b01f76.png


Далее начал анализировать POST данные.

— Запрос идет на туже страницу

— Никаких cookies важных для дальнейшей работы не принимается

— Найдена строка которая отвечает за переключение страницы на следующую(выделена)


<img src="bbecb3e016534a799c6bd553ee31b1aa.png"


Значение этой строки это параметр который передается в JS функцию при клике на нужную мне ссылку.

4bd42fc0a4025b91a493eb6b17998b08.png


При чем он неизменный для всех страниц, из чего можно предположить что выбранная страница хранится в сессии.


В общем вроде все просто, Не будь это https, почитал про него, и вычитал что данные передаются в шифрованном виде, но т.к. я вижу значение __EVENTTARGET не зашифрованным, я предположил что информация я ее вижу у себя еще не шифрованную, но по мойму это единственная строка которая незашифровнана, остальные параметры для меня это куча букв и цифр, которые меняются при каждом запросе.


Так вот вопрос в том, что делать с теми параметрами которые я не могу проанализировать, и соответственно отправить, или они не важны?


P.S. если у кого-то есть какие-то наработки с парсингом iaai.com(т.к. тема достаточно популярна) буду благодарен, и в качестве благодарности могу предложить парсер copart.com
  • Вопрос задан
  • 11815 просмотров
Решения вопроса 1
Tremax
@Tremax
Я так полагаю, в качестве https клиента вы используете curl, тогда все операции с ssl сделает за вас библиотека, если конечно вы указали правильные опции.

Тепреь насчет запроса, в пост передается ~25 кб данных, изначально подумал, что все данные генерируются посредством js, тогда либо разбор алгоритма или исполнение.

Но все поля, которые передаются — статичны(насколько я мог заметить), их необхожимо только спарситьи и передать, насчет значымых полей, рекомендую скачать для firefox плагин — Temper data, который позволяет редактировать запрос, и методом проб выяснять, что передавать, а что можно игнорировать.
Ответ написан
Пригласить эксперта
Ответы на вопрос 4
ragimovich
@ragimovich
Судя по сглаживанию у вас Мак, но, тем не менее, осмелюсь предложить Fiddler под винду, который умеет проксировать HTTPS и отображать все данные, передаваемые на удаленный сервер. Его, кстати, можно установить на виртуалку и просто указать в качестве прокси у макового браузера.
Ответ написан
@vodniciarv
проще не писать парсеры и их поддерживать, а использовать готовые API от внешних источников, их не так много, но есть несколько вариантов

вот пример: https://import-motor.com/ru/api-copart-iaai
Ответ написан
Комментировать
Iliapan
@Iliapan
Тут недавно спрашивали про парсер со встроенным js движком, именно то, что вам нужно. Поищите…
Ответ написан
@egorinsk
А какая выгода с этого? Даже если вы (точнее ваши реселлеры) купят машину в США, как ее ввозить в Россию? Это наверно же дорого очень.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы