Парс выдачи Google, как обойти блокировку?

Question

Алексей Зорин @newbie67

Парс выдачи Google, как обойти блокировку?

Прошу оставить моральную сторону вопроса вне обсуждения.

Оох, что я уже только не пробовал. Работало отлично, и в определённый момент просто перестало.
Допустим, есть запрос:

https://www.google.ru/search?q=%D0%BF%D1%80%D0%BE%D0%B4%D0%B2%D0%B8%D0%B6%D0%B5%D0%BD%D0%B8%D0%B5+%D1%81%D0%B0%D0%B9%D1%82%D0%BE%D0%B2&num=100

И есть код:

$useragent = $this->getUseragent();
	$curl = curl_init();
	$headers = array();
	$headers[] = "Connection:keep-alive";
	$headers[] = "Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8";
	$headers[] = "Connection:keep-alive";
	$headers[] = "Upgrade-Insecure-Requests:1";
	$headers[] = "User-Agent:".$useragent;
	$headers[] = "Accept-Language:ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4";

	curl_setopt($curl, CURLOPT_URL,				$url); 
	curl_setopt($curl, CURLOPT_RETURNTRANSFER, 	true); 
	curl_setopt($curl, CURLOPT_HTTPHEADER, 		$headers);
	curl_setopt($curl, CURLOPT_USERAGENT, 		$useragent);
	curl_setopt($curl, CURLOPT_CONNECTTIMEOUT, 30);
	curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 	true);
	curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
	curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, false);
		
	$response = curl_exec($curl);

Тестирую с локальной машины. Curl запрос получает ошибку 403 и страничку с баном.
Тут же я этот запрос открываю в своём браузере в режиме инкогнито - и сразу же получаю код 200.
Я ведь правильно понимаю, в режиме инкогнито при первом запросе нет совершенно никаких cookie, то есть google ориентируется только на request headers.

Что я делаю не так? Все заголовки в массив $headers скопировал с браузера.
Видимо есть ещё какой-то параметр, который я не передаю.

Есть идеи?

UPD: Появилось вот такое предположение:
Гугл банит как пользователей с определёнными куки, так и пользователей без куки.
Если это так, значит вероятней всего можно обойти блокировку, постоянно собирая "работающие" куки

Вопрос задан более трёх лет назад
5881 просмотр

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

4 комментария

Алексей Зорин @newbie67 Автор вопроса

1. Функция getUseragent на момент тестирования кода возвращала статичную строку.
3. Этот запрос работает у меня в браузере
4. Мне надо 100 результатов. Если я буду запрашивать по 10, то скорость будет в 10 раз ниже. Этот вариант для меня неприемлем.
5. Спасибо, почитаем, поинтересуемся
6. Но ведь есть провайдеры, которые дают на много клиентов 1 IP адрес. У меня на прошлом месте жительства был такой провайдер. И я не видел подобных проблем.

Написано более трёх лет назад
nirvimel @nirvimel

Алексей Зорин:
3. Конечно, работает, потому что запрос валидный, но эвристический анализатор с каждым таким запросом повышает вероятность того, что IP работает бот. Когда вероятность достигает некоторого значения - вылетает капча.
4. Я так и знал, что вам это нужно. Это нужно всем ботам. Но живой человек задаст такой запрос с вероятностью 0.01%. На этом и основан отлов ботов.
6. Во-первых, люди отличаются от ботов по поведению. А у Гугла куча средств по анализу поведения на собственных страницах.
Во-вторых, те кто сидят под NAT, натыкаются на капчу чаще остальных, а если среди них попадается один ботовод, то капча начинается тотально у всех, они начинают донимать техподдержку, постепенно это начинает напрягать провайдера и он раскошеливается на дополнительный пул IP. Если бы не это, мы бы, наверное, все сейчас под NAT сидели.

Написано более трёх лет назад
romy4 @romy4

nirvimel: Из опыта скажу, гуглу по-барабану 10 или 100 вы забираете, по этому признакому никогда не банил

Написано более трёх лет назад
Dimonchik @dimonchik2013

прокси годятся не все
ну и спасибо за развернутое, честно - эксперименты по смене UA и кук не ставили, поэтому думаю до сих пор, что IP - определяющий

во всяком случае - бан в офисе всех машин при работающем парсере только с одной - видел

Написано более трёх лет назад

1 комментарий

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Chrome

+1 ещё

Простой
Как отключить в поисковике Google коррекцию?
- 2 подписчика
- 12 часов назад
- 82 просмотра
0

ответов
Поисковая оптимизация

+1 ещё

Простой
Почему сбросились подтверждения права в Google Search Console?
- 1 подписчик
- 17 нояб.
- 64 просмотра
3

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 270 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 2 подписчика
- 14 нояб.
- 278 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 210 просмотров
4

ответа
Google

Средний
Не приходит смс от гугла при двухуровневой аунтификации?
- 2 подписчика
- 10 нояб.
- 367 просмотров
0

ответов
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 185 просмотров
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 305 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 281 просмотр
2

ответа
Google

Средний
Почему на мобильный связи нет доступа к Google?
- 1 подписчик
- 29 окт.
- 418 просмотров
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2015-12-22 18:28:07

Заголовки Accept и Accept-Language зависят от User-Agent. Вы меняете User-Agent, и Гугл может фиксировать это расхождение. Попробуйте для начала вместо getUseragent() задать константную строку. Потом, если вам так нужно менять User-Agent, то посмотрите как это делает Random Agent Spoofer, он согласут все заголовки с фейковым User-Agent, возможно придется лезть в его исходники, поэтому проще с константной строкой.
Попробуйте еще убрать ru-RU из Accept-Language. Это не означает, что пропадут русскоязычные результаты в выдаче или будут проблемы с кодировкой. У меня вообще вся система и браузер не локализованы, это не мешает гуглить по-русски.
https://www.google.ru/search?q=q&num=100 такие запросы шлют только боты. В браузере при поиске с главной страницы Гугала идет запрос огромной длинны с десятком параметров, в том числе, какие-то уникальные хэши. Попробуйте сначала запросить главную, принять и записать все cookies, выдрать из формы поиска url, по которому уйдет запрос, добавьте туда q=blabla и посылайте новый запрос со всеми cookie. Кстати, на каждый запрос приходят новые cookie и их бы неплохо использовать в следующем запросе, как бы это происходило в реальном браузере, это увеличит время/количество_запросов до бана.
Не запрашивайте сразу num=100, вам так проще парсить, а Гуглу так проще банить тех, кто парсит. Уберите этот параметр и выкачивайте SERP по одной странице. Между запросами делайте паузы в несколько секунд как серфил бы живой человек. При этом возможно параллельно работать с другим запросом из другой сессии с другим набором cookies и User-Agent, как будто несколько человек сидят с одного IP из-за NAT. Но, вообще, выборка SERP глубже одной-двух страниц сильно увеличивают подозрение в ваш адрес и приближают капчу, постарайтесь по возможности вообще отказаться от выборки 100 результатов ради того чтобы парсер работал хоть как-то.
Перед тем как делать все это, запустите Wireshark и сравните в нем вживую два запроса: один из браузера, другой от вашего скрипта в его текущей реализации, возможно какие-то различия бросятся в глаза сразу.
Даже при соблюдении всех условий, бан неизбежен рано или поздно, это зависит от объемов трафика, который вы создаете с одного IP. С этим уже ничего не сделать. Спасет только большой пул проксей.