Как открыть www.dhl.ru curl'ом?

Question

Ярослав @xenon

Too drunk to fsck

Crawling

Как открыть www.dhl.ru curl'ом?

Очень легко открыть www.dhl.ru (или https://www.dhl.ru) в браузере. (Дальше он там кинет редирект на другой сайт, но это уже не имеет значения).

Но если сделать curl http://www.dhl.ru/ - то ничего не будет (просто "висит", пока не нажмешь Ctrl-C):

xenon@pi:/tmp $ curl https://www.dhl.ru/
^C

То же самое с www.dhl.com

Наверное, это защита от ботов, скрапинга - все ок, понимаю. Но как она работает? Я пробовал заменить User-Agent и другие хидеры, пробовал --http2, в общем, мне кажется, попробовал почти полностью "представиться" настоящим человеческим браузером и ничего не помогает.

Практической ценности в задаче нет, случайно на это наткнулся, но очень хочется понять, как это сделано и как это можно обойти (curl, wget, python requests итд)?

Вопрос задан более трёх лет назад
325 просмотров

Комментировать

Подписаться 3 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

4 комментария

Алексей Уколов @alexey-m-ukolov

www.dhl.ru

Написано более трёх лет назад

Даша Циклаури @dasha_programmist

Алексей Уколов, так разницы нету

curl 'https://www.dhl.ru/' \
  -H 'Connection: keep-alive' \
  -H 'Upgrade-Insecure-Requests: 1' \
  -H 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' \
  -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' \
  -H 'Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7' \
  --compressed

DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>301 Moved Permanently</title>
</head><body>
<h1>Moved Permanently</h1>
<p>The document has moved <a href="http://www.dhl.ru/ru.html">here</a>.</p>
</body></html>

Написано более трёх лет назад

Ярослав @xenon Автор вопроса
Да, спасибо! Опытным путем выяснил, что можно сократить до:

curl -v 'http://www.dhl.ru/' -H 'Connection: keep-alive' -H 'User-Agent: Mozilla/5.0' -H 'Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7'

Но это уже сокращать некуда, от убирания каждого заголовка все ломается. И User-Agent можно установить в zzz, например, а вот в curl нельзя - видимо, некоторые user-agent в черном списке.

Спасибо!
Написано более трёх лет назад
Кирилл @init0

Ярослав Поляков, ваш скрипт не получает ответа и висит на tarpit

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Ярослав @xenon Автор вопроса
Так это вы немного другой сайт открыли (dhl.ru, а не www.dhl.ru). Он вам кинул редирект на www.dhl.ru, а этот www уже не открывается.

xenon@pi:/tmp $ curl -k https://dhl.ru/ -I HTTP/1.0 301 Moved Permanently Location: http://www.dhl.ru/ Server: BigIP Connection: Keep-Alive Content-Length: 0 xenon@pi:/tmp $ curl -k https://www.dhl.ru/ -I ^C

Да и если б все дело было в левом сертификате - то и браузер бы не открыл, и curl бы выругался, а там именно подвисание со стороны сервера.
Написано более трёх лет назад
Кирилл @init0
Ярослав Поляков, вы правы, он левый сертификат отдает если вы предполагаемый бот... ну тогда будем прикидываться ~~шлангом~~ браузером, проверяйте:

curl -s -I \ -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; rv:78.0) Gecko/20100101 Firefox/78.0" \ -H "Accept: text/html" \ -H "Accept-Encoding: gzip, deflate" \ https://www.dhl.ru
Написано более трёх лет назад
Кирилл @init0

Ну и еще небольшое дополнение - с российского vps Firstvds соединение висит (tarpit) как бы не изголяться c параметрами, а с впски малоизвестного хостера из Латвии все норм

Написано более трёх лет назад

Кирилл @init0

Reply:

HTTP/1.1 301 Moved Permanently
Location: http://www.dhl.ru/ru.html
Vary: Accept-Encoding
Content-Encoding: gzip
Content-Length: 20
Content-Type: text/html; charset=iso-8859-1
Expires: Fri, 02 Oct 2020 16:05:51 GMT
Cache-Control: max-age=0, no-cache, no-store
Pragma: no-cache
Date: Fri, 02 Oct 2020 16:05:51 GMT
Connection: keep-alive
Set-Cookie:  тут были куки

Обновил ответ

Написано более трёх лет назад

Ярослав @xenon Автор вопроса

Да, спасибо! Работает. Интересно, что в вашем примере Accept* хидеры: Accept и Accept-Encoding и ни один из них нельзя убрать (перестанет работать). А в другом примере Accept-Language вместо них - тогда тоже работает.

Из дома и с makecloud.ru - работает.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Crawling

Средний
Почему браузеры и curl дают разные результаты?
- 4 подписчика
- более двух лет назад
- 1225 просмотров
2

ответа
Поисковые системы

+1 ещё

Сложный
Как своровать шины? (Проверить, что на странице есть fetch().json())?
- 1 подписчик
- более трёх лет назад
- 186 просмотров
1

ответ
Python

+2 ещё

Простой
Перестал работать парсер, появляется requests.exceptions.ConnectTimeout, в чем может быть проблема?
- 1 подписчик
- более трёх лет назад
- 595 просмотров
1

ответ
Регулярные выражения

+1 ещё

Средний
Как убрать все после слова регулярным выражением?
- 1 подписчик
- более трёх лет назад
- 477 просмотров
1

ответ
Crawling

+1 ещё

Простой
Как следить за последними новостями в мире хайтек и IT?
- 1 подписчик
- более трёх лет назад
- 236 просмотров
1

ответ
Поисковая оптимизация

+4 ещё

Средний
Софт для мониторинга форумов?
- 2 подписчика
- более трёх лет назад
- 189 просмотров
1

ответ
Crawling

Простой
Почему парсер то работает то нет?
- 1 подписчик
- более трёх лет назад
- 215 просмотров
2

ответа
Google Cloud Platform

+1 ещё

Простой
В каких случаях статус кода HTTP 200 может быть неиндексируемым?
- 1 подписчик
- более трёх лет назад
- 45 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Чем можно скачать страницу сайта кроме wget?
- 1 подписчик
- более трёх лет назад
- 278 просмотров
2

ответа
Crawling

Простой
Есть у кого-то РУ аналог ProxyCrawl с JS рендером?
- 1 подписчик
- более трёх лет назад
- 52 просмотра
0

ответов
Показать ещё Загружается…

Answer 1 · 2020-10-02 18:49:17

curl 'http://dhl.com/' \
  -H 'Connection: keep-alive' \
  -H 'Upgrade-Insecure-Requests: 1' \
  -H 'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36' \
  -H 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9' \
  -H 'Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7' \
  --compressed \
  --insecure -I

TP/1.0 301 Moved Permanently
Location: http://www.dhl.com/
Server: BigIP
Connection: Keep-Alive
Content-Length: 0

Answer 2 · 2020-10-02 15:29:22

Кирилл @init0

Старый моряк

curl -s -I \
-H "User-Agent: Mozilla/5.0 (Windows NT 10.0;) Firefox/80" \
-H "Accept: */*" \
-H "Accept-Encoding: *" \
https://www.dhl.ru

Ответ написан более трёх лет назад

5 комментариев

Как открыть www.dhl.ru curl'ом?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт