@Tirend

Как отдаются ссылки поисковиком?

Привет, я пишу парсер. Цель его работы такова - есть список запросов, программа поочереди отдает запрос в поисковик, ей возвращается страница ответа. Надо взять первый результат поиска и скачать все по указанному урлу.
Возникли проблемы следующего характера. Ссылку первого релевантного ответа я достал, но когда я перехожу по этой ссылке браузер отдает яваскрипт, т.е. ссылка не является ссылкой на тот ресурс, а это ссылка куда то в недра поисковика, который возвращает яваскрипт.
И вторая проблема - как все таки выкачать ресурс?
  • Вопрос задан
  • 166 просмотров
Пригласить эксперта
Ответы на вопрос 3
dimonchik2013
@dimonchik2013
non progredi est regredi
декомпозируйте

1) добиться от гугла прямой ссылки
2) выкачать по ссылке сайт

по (2) делайте отдельный, или см. например Вопрос опытным Python'щикам и Scrapy'рам (Scrapy или Grablib вам нужен), ну или wget, см. например Как скраулерить webarchive?

по (1) см. https://addons.mozilla.org/en-US/firefox/addon/goo...
можете или расковырять, или сами исследовать возвращаемое и обработать регекспами
Ответ написан
@VZVZ
Reverse-Engineer, Software Developer, Architect
99.99% это AJAX, т.е. JavaScript делает HTTP-запросы.
Их можно перехватить сниффером, например, Fiddler. И сделать такие же запросы на своем ЯП.

P.S.
В 00.01% случаев это не HTTP/HTTPS, а другой протокол. Например, на сокетах возможно. Тогда HTTP-сниффер не годен.
Но это КРАЙНЕ редко бывает.
Ответ написан
@uwini
Добрый день.

Tirend: Я говорю про baidu - это китайский поисковик.

Да там ссылки с редиректом, вида:
www.baidu.com/link?url=BG93Jq_BObOnCzspyHAmb_UtfnV...
Вы можете получить прямую ссылку из этого url, с помощю, напимер, curl или, если Вы используете php, можно это сделать только на php.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы