Парсинг php + curl отдает 403 ошибку?

Question

Кирилл Горелов @Kirill-Gorelov

С ума с IT

PHP

Парсинг php + curl отдает 403 ошибку?

Зачастую, когда парсю сайт, мне в ответ приходит 403 ошибка.
Иногда понимаю как исправиться иногда нет.

К примеру моя функция, которая отдает 403 ошибку.
И ссылка, на которой я оттачиваю свои навыки.
statonline.ru/domains?tld=ru

function poster($url){
$ua = 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/525.13 (KHTML, like Gecko) Chrome/0.A.B.C Safari/525.13';
$ch = curl_init();
curl_setopt($ch,CURLOPT_URL, $url);

curl_setopt($ch, CURLOPT_HEADER, true);

curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
curl_setopt($ch, CURLOPT_USERAGENT, $ua);
curl_setopt($ch, CURLOPT_COOKIE, 'NID=67=pdjIQN5CUKVn0bRgAlqitBk7WHVivLsbLcr7QOWMn35Pq03N1WMy6kxYBPORtaQUPQrfMK4Yo0vVz8tH97ejX3q7P2lNuPjTOhwqaI2bXCgPGSDKkdFoiYIqXubR0cTJ48hIAaKQqiQi_lpoe6edhMglvOO9ynw; PREF=ID=52aa671013493765:U=0cfb5c96530d04e3:FF=0:LD=en:TM=1370266105:LM=1370341612:GM=1:S=Kcc6KUnZwWfy3cOl; OTZ=1800625_34_34__34_; S=talkgadget=38GaRzFbruDPtFjrghEtRw; SID=DQAAALoAAADHyIbtG3J_u2hwNi4N6UQWgXlwOAQL58VRB_0xQYbDiL2HA5zvefboor5YVmHc8Zt5lcA0LCd2Riv4WsW53ZbNCv8Qu_THhIvtRgdEZfgk26LrKmObye1wU62jESQoNdbapFAfEH_IGHSIA0ZKsZrHiWLGVpujKyUvHHGsZc_XZm4Z4tb2bbYWWYAv02mw2njnf4jiKP2QTxnlnKFK77UvWn4FFcahe-XTk8Jlqblu66AlkTGMZpU0BDlYMValdnU; HSID=A6VT_ZJ0ZSm8NTdFf; SSID=A9_PWUXbZLazoEskE; APISID=RSS_BK5QSEmzBxlS/ApSt2fMy1g36vrYvk; SAPISID=ZIMOP9lJ_E8SLdkL/A32W20hPpwgd5Kg1J');

curl_setopt($ch, CURLOPT_AUTOREFERER, true);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_MAXREDIRS, 20);
// curl_setopt($ch,CURLOPT_POST, true);
// curl_setopt($ch,CURLOPT_POSTFIELDS, $fields_string);

$result = curl_exec($ch);
$last = curl_getinfo($ch, CURLINFO_EFFECTIVE_URL);
curl_close($ch);
return array($result,$last);
}

Вопрос задан более трёх лет назад
2403 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Кирилл Горелов @Kirill-Gorelov Автор вопроса

Александр Талалаев Как понимаю у меня план таков.
Сделать несколько CURLOPT_USERAGENT и пробовать парсить через прокси?

Написано более трёх лет назад
Александр Талалаев @neuotq
Кирилл Горелов: чем больше разнообразия тем лучше.
Единственное что нередко сторонние прокси значительно замедляют парсинг, да и количество отказов резко увеличивается(где-то что-то слишком долго грузилось).
Поэтому лучше к своему серваку/vps докупать ip шники и
curl_setopt($ch, CURLOPT_INTERFACE, "XXX.XXX.XXX.XXX");

Короче задай отдельно(неважно где вручную, в БД, с конфиге) список опций, где у тебя будут несколько разных юзерагентов, список твоих купленных ip и тд, и скрипт оббертка должен запускать твой парсер каждый раз со случайными параметрами.
Но все равно будь готов к банам(а так же порой абьюзам к хостеру), и перездам на другие серваки.
Это самый эффективный из простых сценариев.
Написано более трёх лет назад
Max Kostikov @mxms

Да и не только большие. Я тоже так делаю, если какие-то вводные данные для обработки на PHP не соответствуют. Причём User-agent даже не проверяется - лишнее это. Очень охолаживает всевозможного рода спамеро-хакеров.

Написано более трёх лет назад

4 комментария

YOYOH1PHOP @YOYOH1PHOP

Добрый день! Пожалуйста, могли бы расписать более подробно этот процесс? Интересует по аунтфикации oauth. Пытаюсь парсить страницы с ozon. Искал гайды, но не нашёл.

Написано более трёх лет назад
Alex XYZ @AlexXYZ

YOYOH1PHOP, Думаю, что curl для oAuth не очень подходит, т.к., насколько я знаю, oAuth выполняется всякие редиректы при аутентификации. Лучше выполнять сначала аутентификацию oAuth в браузере, потом брать куку из консоли браузера и уже с ней выполнять парсинг сайта с помощью curl (если, конечно, сайт не генерит какие-то дополнительные куки при открытии страниц). Как использовать куки с curl посмотрите доки по curl?

Написано более трёх лет назад
YOYOH1PHOP @YOYOH1PHOP

Alex XYZ, спасибо. Разберусь, тем более через Fiddler Classic удобно сразу брать весь header и куки. Просто подставляю их в файл и считываю как строку подставляя

Написано более трёх лет назад
Alex XYZ @AlexXYZ

YOYOH1PHOP, Посмотрите, может из консоли Chrome будет удобно их брать:

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 201 просмотр
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 451 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 247 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2463 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 342 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 183 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 251 просмотр
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 283 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-27 15:52:19

Сегодня парсинг дело нетривиальное, особенно если это относительно крупные/известные проекты, которые не очень хотят чтобы их данные парсили. Короче говоря у многих на стороне сервера стоят системы которые определяют таких ботов, я думаю в подавляющем большинстве ошибка 403 возникает именно в случае бана( возможно временного), на второе место я бы оставил ошибки авторизации, если целевой сайт ее требует.
Короче говоря, твой план такой:
- делаешь набор идентификаторов бразуеров, а не только один используешь, тоже касается кукисов/автьоризации.
- покупаешь несколько ip адресов на сервере (и вообще привыкни что это дело придется постоянно менять и отказывается от засвеченных), и делаешь запросы со случайным выбором из своего пула адресов.
- так и живешь ;-)

Answer 2 · 2017-08-27 16:06:18

Доступ к сайтам не из браузера штука тонкая. Curl достаточно универсальная "штука" для парсинга, но совершенно неудобная "штука" для аутентификации. Даже если вы пользуете его из под php. Позвольте посоветовать вам дополнить парсинг curl-ом дополнительным инструментом, помогающим аутентифицировать любые запросы (хоть oauth, хоть basic, хоть kerberos) - это fiddler (www.telerik.com/fiddler). С его помощью вы можете посмотреть заголовки/куки, которые используются при доступе к сайту. Потом настраиваете curl на работу через fiddler, а с помощью встроенного в fiddler JavaScript .net дописываете к запросам curl необходимые заголовки/куки. Я так "проходил" смс-аутентификацию, например.

Answer 3 · 2017-08-27 20:29:59

Dimonchik @dimonchik2013

non progredi est regredi

куки замени на cookiefile, две опции - file и jar

Ответ написан более трёх лет назад

Комментировать

Парсинг php + curl отдает 403 ошибку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт