Как заставить сервер думать, что я не робот?

Question

Исрапил Ахмедов @xISRAPILx

Кратко не получится

Как заставить сервер думать, что я не робот?

Привет, мир.

Пытаюсь спарсить ресурс, но он этому противится. Через раз думает, что я робот. Взял все хэдеры из браузера - не помогло. Из браузера всё работает, даже если бесконечно спамить, а тут даже с задержкой не хочет.

Сам код:

/**
     * get запрос на внешний ресурс
     *
     * @param string $url Ссылка на ресурс
     * @param array $headers Дополнительные заголовки запроса
     *
     * @return bool|string false в случае ошибки или текст ответа от ресурса
     */
    public static function get(string $url, array $headers = []){
        $ch = curl_init();

        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);

        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_COOKIEJAR, __DIR__.DIRECTORY_SEPARATOR."cook.txt");
        curl_setopt($ch, CURLOPT_COOKIEFILE, __DIR__.DIRECTORY_SEPARATOR."cook.txt");

        curl_setopt($ch, CURLOPT_COOKIESESSION, true);
        curl_setopt($ch, CURLOPT_HTTPHEADER, [
                "accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3",
                "accept-language: ru,en;q=0.9",
                "cache-control: max-age=0",
                "upgrade-insecure-requests: 1",
                "user-agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 YaBrowser/19.6.1.153 Yowser/2.5 Safari/537.36"
            ] + $headers);
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 YaBrowser/19.6.1.153 Yowser/2.5 Safari/537.36");

        //curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);

        $result = curl_exec($ch);
        if(($error = curl_error($ch))){
            echo "CUrl вернул ошибку: ".$error;
        }

        curl_close($ch);

        return $result;
    }

Сам ресурс:
https://www.copart.com/public/data/lotdetails/solr...

Вопрос задан более трёх лет назад
518 просмотров

11 комментариев

Подписаться 3 Средний 11 комментариев

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Дмитрий @Compolomus Куратор тега PHP

Что то вы нагоняете. Наверное что то не до конца настроили

Написано более трёх лет назад
Исрапил Ахмедов @xISRAPILx Автор вопроса

Спасибо за информацию, но сейчас почему-то всё работает, уже 15 минут 0 детектов. Перейду на сокеты, если опять будут проблемы.

Написано более трёх лет назад
AUser0 @AUser0
Исрапил Ахмедов, кстати да, защита там таки есть, cookies и JS код при первом небраузерном обращении:
<html> <head> <META NAME="robots" CONTENT="noindex,nofollow"> <script src="/_Incapsula_Resource?SWJIYLWA=5074a744e2e3d891814e9a2dace20bd4,719d34d31c8e3a6e6fffd425f7e032f3"> </script> <body> </body> </html>

и затычка о непрошедшей проверке при последующих...
Написано более трёх лет назад
Исрапил Ахмедов @xISRAPILx Автор вопроса

AUser0, тоесть, нужно как-то исполнить этот код? Я ловил именно эту страничку, но не обратил внимание на скрипт.

Написано более трёх лет назад
AUser0 @AUser0

Исрапил Ахмедов, а стоило, там наворочено-наобфускачено, ууу...

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 127 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 670 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 473 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 253 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 199 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 159 просмотров
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2475 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 348 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 190 просмотров
1

ответ
Показать ещё Загружается…

Andrej Sharapov, не знаю даже, возможно я вообще персонаж какой-то супер-симуляции.
Исрапил Ахмедов, файлы куков не пустые?
Дмитрий, добавьте реферер, включите ту строку которую закоментировали, ну и чтоб работал https вы не верно включили
Исрапил Ахмедов,
CURLOPT_SSL_VERIFYHOST тоже выключить надо
Дмитрий, в браузере работает без реферера, не обязательно его указывать. Про CURLOPT_SSL_VERIFYHOST сервер не может знать.
Исрапил Ахмедов, вы выключите, или через php.ini пропишите путь до сертификата. Мне помогло как то
Дмитрий, спасибо за ответ, но думаю, что проблема не в этом.
Администрация тостера, улучшите защиту от ботов, а то они уже вопросы задают. Так и до восстания не далеко))

Answer 1 · 2019-06-18 09:38:07

У cURL есть одна особенность, которая соответствует стандарту HTTP, но на ней то и ловят. Во время HTTP запроса cURL не использует полный URL (с именем сервера) в таком вот виде: "GET http ://site.org/path/file.ext?params HTTP/1.1". Вот по по этому "отсутствию полного URL" сервер и отлавливает.

Яндексовская капча так делает, при чём из 100-а запросов случайно срабатывало 2-3. Пришлось самостоятельно писать весь функционал cURL через fsockopen()/fread()/fwrite(), с подгрузкой/сохранением куков в файле cURL-а.

Как заставить сервер думать, что я не робот?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт