Как сделать сложный парсинг страницы?

Question

Ярослав Алексеенко @webdevfan

CEO & Co-Founder "Wacdis"

Парсинг

Как сделать сложный парсинг страницы?

Спасибо, что заглянули...

Стоит не простая (для меня) задача. Как получить код страницы, которая находится по URL, если:

нужна эмуляция браузера, страница защищена каким-то алгоритмом, отличающим браузер от юзера
нужно парсить html, который подгружается динамически после заполнения формы

Т.е., алгоритм следующий: эмуляция браузера, заполнение полей формы, ожидание ответа, парсинг данных.

Кто встречался с данной задачей хоть частично, дайте, пожалуйста, наводку или пример на чем писать, куда копать. Язык и платформа не важна. Спасибо.

p.s. Задача абстрактная... Поставил перед собой задачу написать парсер. Сложный (для меня, по крайней мере). Например, спарсить результаты поиска aviasales или получить данные после авторизации в ebay.

Вопрос задан более трёх лет назад
1559 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Решения вопроса 3

9 комментариев

10 комментариев

Ярослав Алексеенко @webdevfan Автор вопроса

Спасибо за ответ, ваше решение знакомо, но попробую охарактеризовать задачу более детально... Есть eBay и логин/пароль от кабинета... нужно авторизироваться и получить данные по страницы поиска.

Пример абстрактный, как и задача.

Написано более трёх лет назад
Alexander Litvinenko @edli007

Ярослав Алексеенко: Остальные варианты, к примеру написание своего браузера или использование PhantomJS, делают тоже самое. Альтернатива это посадить китайца, чтобы быстро нажимал Crtl+C/Crtl+V или взломать eBay и подключиться к бд напрямую.

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

:) с китайцем вариант подхрдит, но все же, есть у вас решение, которое позволит пройти авторизацию и сделать что-то подобное?

Написано более трёх лет назад
Alexander Litvinenko @edli007

Ярослав Алексеенко: я когда-то делал подобное если это заказ, обойдется до 100 дол.

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

Alexander Litvinenko: Ели бы это был заказ, я бы его постил в другом месте...

Написано более трёх лет назад
Alexander Litvinenko @edli007

Ярослав Алексеенко: тогда гуглите, а то выходит это задача а не вопрос.

Написано более трёх лет назад
Петр @petermzg

Есть куда более сложные случаи. К примеру сайт www.britishhorseracing.com делает запрос токена. На что получает ответ в виде javascript прошедшего обфускацию, который браузер выполняет, собирая данные делает заголовок для следующего запроса к только ему известному адресу. Который снова возращает javascript и уже данный js с ему только известным алгоритмом получает нужный json. Для осознания сути вот урл www.britishhorseracing.com/feeds/v1/token/request

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

Петр: Зачет! Интересно было бы посмотреть решение задачи...

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

Alexander Litvinenko: Вы же понимаете, что я не ищу готового, и совет "идите в гугл" не интересует, наверняка, никого.

Написано более трёх лет назад
Alexander Litvinenko @edli007

Ярослав Алексеенко: а точно также задача решается, это

3. Смотрим на наличие доп. запросов, включая запросы на других протоколах, например ws. Некоторые сайты получают цифровые подписи через доп. запрос а не сразу. Если есть - добавляешь эти данные к предыдущим.

Написано более трёх лет назад

5 комментариев

Ярослав Алексеенко @webdevfan Автор вопроса

Спасибо, буду смотреть...
Возможно ли решение без установки PhantomJS и прочего, типичный хостинг пакет?

Написано более трёх лет назад
VZVZ @VZVZ

Ярослав Алексеенко: ну я ж сказал, в принципе все может делаться и голыми HTTP-запросами, и сервер ничего не будет знать о том, что там нет никакого браузера, а есть бот. Геморрою просто много, симитировать все заголовки и т.д.
А зачем это на хостинге-то? Типа в облаке хотите? Обычно боты на компах "бегают".

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

VZVZ: Нет, я ничего не хочу, задача чисто абстрактная, интересно было покопать в эту сторону...

Написано более трёх лет назад
Ярослав Алексеенко @webdevfan Автор вопроса

Как продебажить, что браузер шлет серверу и что тот отвечает?

Написано более трёх лет назад
VZVZ @VZVZ

Ярослав Алексеенко: Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)мммУчитесь сниффить (Fiddler, Wireshark...)Учитесь сниффить (Fiddler, Wireshark...)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 154 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 224 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 192 просмотра
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 200 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 254 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 130 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 221 просмотр
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 564 просмотра
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 400 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 205 просмотров
0

ответов
Показать ещё Загружается…

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Answer 1 · 2016-05-03 02:29:36

У вас в вашей веб студии ни одного программиста нет?

Наводка простая - смотрите инспектором на AJAX запрос, копируете его для cURL (правой кнопкой по самому запросу, скопировать как cURL) и повторяете, собственно, курлом. Если ответ такой же, значит вы уже решили задачу и осталось лишь распарсить данные.

Answer 2 · 2016-05-03 02:36:55

Обычно сервер цепляет какие-то доп. данные, так и понимает это это не браузер.

1. Берешь курл, открывает страницу с формой, с набором заголовков от любого браузера(фаербагом глянь)
2. Запоминаешь все поля формы, включая пустые и все куки. В форму часто добавляют подпись а в заголовки сессию. Особо хитрые видят что форму не открывали, так значит и отправки быть не должно. Этот пункт все эти проблемы решает.
3. Смотрим на наличие доп. запросов, включая запросы на других протоколах, например ws. Некоторые сайты получают цифровые подписи через доп. запрос а не сразу. Если есть - добавляешь эти данные к предыдущим.
4. Отправляешь запрос с массивом собранных данных, получаешь результат. Еще не видел чтобы это хоть раз не сработало.

Answer 3 · 2016-05-03 11:32:11

Учитесь сниффить (Fiddler, Wireshark...), HTTP осваивайте, начинать советую с имитации не браузера, а голых HTTP-запросов как с решения геморройного (если их много или требуется качество), но зато универсального и быстродействующего (быстрее браузера), в дальнейшем осваиваем Phantom.js или Selenium, которые в уже умелых руках могут изменить пропорцию "геморрой / качество имитации" в лучшую сторону.

Как сделать сложный парсинг страницы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт