Почему браузеры и curl дают разные результаты?

Question

Константин @kx13

Python разработчик

Crawling

Почему браузеры и curl дают разные результаты?

Нашел один интересный сайт https://www.b2b-energo.ru/ (может есть и другие похожие, но мне попался этот), захотел скачать его с помощью curl и наткнулся на очень интересную особенность.
Я пытался скачивать заглавную страницу сайта, поэтому куки и прочая персональная информация здесь не принципиальна.

Если я открываю эту страницу в браузере, то браузер делает несколько редиректов и затем отображает страницу.
Для более точной проверки я запустил wireshark и сделал захват пакетов при запросе страницы в браузере.
Начало работы выглядит так:

192.168.0.156	91.206.127.244	HTTP	543	GET / HTTP/1.1 
91.206.127.244	192.168.0.156	HTTP	684	HTTP/1.1 307 Temporary Redirect  (text/html)
...
тут следует несколько редиректов, пока в конце-концов не возвращается страница
...
91.206.127.244	192.168.0.156	HTTP	595	HTTP/1.1 200 OK  (text/html)

Но если я пытаюсь скачать эту же страницу через curl
curl -v https://www.b2b-energo.ru/
То на запрос мне сразу же приходит ответ 200 с какой-то непонятной страницей.
Я, конечно, добавлял в вызову curl стандартные заголовки, которые отправляет бразузер, но дело это не меняло.

Я перепробовал все популярные браузеры, они все работают одинаково.

Для ручных запросов использвал curl, postman, прямую запись в сокет байтов запроса.

Но в браузерах всегда был редирект, а в других утилитах всегда возвращается сразу страница.

Т.к. у меня есть wireshark, то я взял побайтный дамп пакета, который отправляет браузер и с помощью python напрямую отправил эти данные в сокет. Т.е. я с точностью до байта отправил то, что отправляет браузер. Но даже в этом случае при дословном воспроизведении запроса мне возвращался ответ 200, а не 307.

При ручной отправке порядок пакетов такой.

192.168.0.156	91.206.127.244	HTTP	543	GET / HTTP/1.1 
91.206.127.244	192.168.0.156	HTTP	833	HTTP/1.1 200 OK  (text/html)

Т.е. на запрос - ответ сразу 200.
Как видно размер запроса одинаковый т.к. это копия запроса от браузера, а размер ответа совершенно другой хотя это должна быть стандартная заглавная страница.

Закрадывается идея, что сервер принимает во внимание не только данные запроса, но что-то еще.

Хочется узнать почему сервер на один и тот же запрос (с точностью до байта) при отправке из браузера делает редирект, а при ручной отправке запроса возвращает какую-то страницу?
На основании чего он принимает решения? Хочется понять что еще может влиять на сервер?
А может только у меня так странно работает?

Я раньше думал, что на одинаковые запросы будут одинаковые ответы, но в некоторых случаях похоже получается иначе.

Вопрос задан более двух лет назад
1225 просмотров

9 комментариев

Подписаться 4 Средний 9 комментариев

rPman @rPman

браузер делает запросы dns, cors и может еще что то там, ты wireshark их не видел?
есть еще тайминги, но маловероятно

еще момент, ты точно по пакетам смотрел? данные можно отправить одним пакетом а можно несколькими, с точки зрения tcp это одно и то же но сервер это может детектить.

Написано более двух лет назад
Refguser @Refguser
Защита от ботов.
Одна из них видна прямо в коде

<noscript><meta http-equiv="refresh" content="0; url=/exhkqyad"></noscript>

Да и под конец полно жабаскрипта (лень разбирать)
Написано более двух лет назад
rPman @rPman

Refguser, ты не понял фишки, страница, возвращаемая curl отличается от той что получает браузер.. даже не так, редиректа нет, как с первого запроса, когда javascript не имеет никакого значения, сервер различает curl и браузер, даже не так - побайтовую копию дампа сокета и браузерный запрос.

естественно там напихано fgingerprint и обфусцированного javascript

Написано более двух лет назад
Refguser @Refguser

rPman, это ты не понял - ботам (в тч и курлу) отдаётся одно, людям другое.

Написано более двух лет назад
rPman @rPman

Refguser, капитан очевидность?
вопрос КАК!?

Написано более двух лет назад
Refguser @Refguser

rPman, Вопрос был не КАК, а ПОЧЕМУ.

А "КАК" - есть масса вариантов. Но тут точно одного UA недостаточно.

Написано более двух лет назад
rPman @rPman

еще раз, сервер определяет бота еще до того как страничка загрузится в браузере и запустится javascript, мало того, еще до того как начнет отдавать страничку!

если тебе известно как так можно сделать, мы слушаем

p.s. почему/зачем сервер это делает сейчас не имеет смысла обсуждать, наверное они финансово заинтересованы не делиться данными, но не отдавать их тоже не могут

Написано более двух лет назад
Константин @kx13 Автор вопроса

rPman, пакетик маленький 543 байта, но я повнимательнее посмотрю на окружающие запросы.
Т.к. все запросы в TLS там еще вокруг много служебных данных этого протокола бегает.

Мне вот ради спортивного интереса просто хочется разобраться как это работает.

Написано более двух лет назад
Константин @kx13 Автор вопроса

Refguser, Я ведь дампы смотрю т.е. эта информация еще даже ни до какой прикладной программы не дошла.

Сервер как-то понял, что к нему не из браузера идут и подменил ответную страницу на мусор.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

5 комментариев

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Поисковые системы

+1 ещё

Сложный
Как своровать шины? (Проверить, что на странице есть fetch().json())?
- 1 подписчик
- более трёх лет назад
- 186 просмотров
1

ответ
Python

+2 ещё

Простой
Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?
- 1 подписчик
- более трёх лет назад
- 595 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как убрать все после слова регулярным выражением?
- 1 подписчик
- более трёх лет назад
- 477 просмотров
1

ответ
Crawling

+1 ещё

Простой
Как следить за последними новостями в мире хайтек и IT?
- 1 подписчик
- более трёх лет назад
- 236 просмотров
1

ответ
Поисковая оптимизация

+4 ещё

Средний
Софт для мониторинга форумов?
- 2 подписчика
- более трёх лет назад
- 189 просмотров
1

ответ
Crawling

Простой
Почему парсер то работает то нет?
- 1 подписчик
- более трёх лет назад
- 215 просмотров
2

ответа
Google Cloud Platform

+1 ещё

Простой
В каких случаях статус кода HTTP 200 может быть неиндексируемым?
- 1 подписчик
- более трёх лет назад
- 45 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Чем можно скачать страницу сайта кроме wget?
- 1 подписчик
- более трёх лет назад
- 278 просмотров
2

ответа
Crawling

Простой
Есть у кого-то РУ аналог ProxyCrawl с JS рендером?
- 1 подписчик
- более трёх лет назад
- 52 просмотра
0

ответов
Показать ещё Загружается…

браузер делает запросы dns, cors и может еще что то там, ты wireshark их не видел?
есть еще тайминги, но маловероятно

еще момент, ты точно по пакетам смотрел? данные можно отправить одним пакетом а можно несколькими, с точки зрения tcp это одно и то же но сервер это может детектить.
Защита от ботов.
Одна из них видна прямо в коде

<noscript><meta http-equiv="refresh" content="0; url=/exhkqyad"></noscript>

Да и под конец полно жабаскрипта (лень разбирать)
Refguser, ты не понял фишки, страница, возвращаемая curl отличается от той что получает браузер.. даже не так, редиректа нет, как с первого запроса, когда javascript не имеет никакого значения, сервер различает curl и браузер, даже не так - побайтовую копию дампа сокета и браузерный запрос.

естественно там напихано fgingerprint и обфусцированного javascript
rPman, это ты не понял - ботам (в тч и курлу) отдаётся одно, людям другое.
Refguser, капитан очевидность?
вопрос КАК!?
rPman, Вопрос был не КАК, а ПОЧЕМУ.

А "КАК" - есть масса вариантов. Но тут точно одного UA недостаточно.
еще раз, сервер определяет бота еще до того как страничка загрузится в браузере и запустится javascript, мало того, еще до того как начнет отдавать страничку!

если тебе известно как так можно сделать, мы слушаем

p.s. почему/зачем сервер это делает сейчас не имеет смысла обсуждать, наверное они финансово заинтересованы не делиться данными, но не отдавать их тоже не могут
rPman, пакетик маленький 543 байта, но я повнимательнее посмотрю на окружающие запросы.
Т.к. все запросы в TLS там еще вокруг много служебных данных этого протокола бегает.

Мне вот ради спортивного интереса просто хочется разобраться как это работает.
Refguser, Я ведь дампы смотрю т.е. эта информация еще даже ни до какой прикладной программы не дошла.

Сервер как-то понял, что к нему не из браузера идут и подменил ответную страницу на мусор.

Answer 1 · 2023-10-29 04:40:57

На сайте используется TLS Fingerprint (вероятно, JA3) как один из индикаторов сессии в системе перед веб-сервером, вероятно, это анти-DDoS.
Так как браузер и curl используют разные SSL-библиотеки и передают разные наборы шифров, сервер предлагает вам пройти challenge.