Как получить html страницы, защищенного от парсинга сайта?

Question

pastecopier @pastecopier

Как получить html страницы, защищенного от парсинга сайта?

При открытии исходного кода страницы: https://www.off---white.com/en/RU/section/new-arrivals в браузере отображается корректный html.
При отправке http get запроса с использованием user-agent, html блокируется и выводится непонятный скрипт на всех страницах сайта одинаковый, за исключением куки
Python:

headers= {"User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 12_3_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/12.1.1 Mobile/15E148 Safari/604.1"}
url = 'https://www.off---white.com/en/RU/section/new-arrivals'
r = requests.get(url, headers=headers)
print(r.text)

Возможно защита связана с cdn cloudflare или variti. Как можно обойти защиту и получить доступ к html?

Вопрос задан более трёх лет назад
1727 просмотров

3 комментария

Подписаться 3 Простой 3 комментария

ThunderCat @ThunderCat Куратор тега PHP

так где
выводится непонятный скрипт на всех страницах сайта одинаковый
что там выводится?

Написано более трёх лет назад

pastecopier @pastecopier Автор вопроса

ThunderCat,
Сама страница - https://www.off---white.com/en/RU/section/new-arrivals
Часть html при get запросе -

<html>
<head>
  <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  <meta http-equiv="refresh" content="10;URL=/ciez2a">
</head>
<body>
  <script type="text/javascript">
function md5cycle(e,t){var i=e[0],a=e[1],r=e[2],n=e[3];a=ii(a=ii(a=ii(a=ii(a=hh(a=hh(a=hh(a=hh(a=gg(a=gg(a=gg(a=gg(a=ff(a=ff(a=ff(a=ff(a,r=ff(r,n=ff(n,i=ff(i,a,r,n,t[0],7,-680876936),a,r,t[1],12,-389564586),i,a,t[2],17,606105819),n,i,t[3],22,-1044525330),r=ff(r,n=ff(n,i=ff(i,a,r,n,t[4],7,-176418897),a,r,t[5],12,1200080426),i,a,t[6],17,-1473231341),n,i,t[7],22,-45705983),r=ff(r,n=ff(n,i=ff(i,a,r,n,t[8],7,1770035416),a,r,t[9],12,-1958414417),i,a,t[10],17,-42063),n,i,t[11],22,-1990404162),r=ff(r,n=ff(n,i=ff(i,a,r,n,t[12],7,1804603682),a,r,t[13],12,-40341101),i,a,t[14],17,-1502002290),n,i,t[15],22,1236535329),r=gg(r,n=gg(n,i=gg(i,a,r,n,t[1],5,-165796510),a,r,t[6],9,-1069501632),i,a,t[11],14,643717713),n,i,t[0],20,-373897302),r=gg(r,n=gg(n,i=gg(i,a,r,n,t[5],5,-701558691),a,r,t[10],9,38016083),i,a,t[15],14,-660478335),n,i,t[4],20,-405537848),r=gg(r,n=gg(n,i=gg(i,a,r,n,t[9],5,568446438),a,r,t[14],9,-1019803690),i,a,t[3],14,-187363961),n,i,t[8],20,1163531501),r=gg(r,n=gg(n,i=gg(i,a,r,n,t[13],5,-1444681467),a,r,t[2],9,-51403784),i,a,t[7],14,1735328473),n,i,t[12],20,-1926607734),r=hh(r,n=hh(n,i=hh(i,a,r,n,t[5],4,-378558),a,r,t[8],11,-2022574463),i,a,t[11],16,1839030562),n,i,t[14],23,-35309556),r=hh(r,n=hh(n,i=hh(i,a,r,n,t[1],4,-1530992060),a,r,t[4],11,1272893353),i,a,t[7],16,-155497632),n,i,t[10],23,-1094730640),r=hh(r,n=hh(n,i=hh(i,a,r,n,t[13],4,681279174),a,r,t[0],11,-358537222),i,a,t[3],16,-722521979),n,i,t[6],23,76029189),r=hh(r,n=hh(n,i=hh(i,a,r,n,t[9],4,-640364487),a,r,t[12],11,-421815835),i,a,t[15],16,530742520),n,i,t[2],23,-995338651),r=ii(r,n=ii(n,i=ii(i,a,r,n,t[0],6,-198630844),a,r,t[7],10,1126891415),i,a,t[14],15,-1416354905),n,i,t[5],21,-57434055),r=ii(r,n=ii(n,i=ii(i,a,r,n,t[12],6,1700485571),a,r,t[3],10,-1894986606),i,a,t[10],15,-1051523),n,i,t[1],21,-2054922799),r=ii(r,n=ii(n,i=ii(i,a,r,n,t[8],6,1873313359),a,r,t[15],10,-30611744),i,a,t[6],15,-1560198380),n,i,t[13],21,1309151649),r=ii(r,n=ii(n,i=ii(i,a,r,n,t[4],6,-145523070),a,r,t[11],10,-1120210379),i,a,t[2],15,718787259),n,i,t[9],21,-343485551),e[0]=add32(i,e[0]),e[1]=add32(a,e[1]),e[2]=add32(r,e[2]),e[3]=add32(n,e[3])}function cmn(e,t,i,a,r,n){return t=add32(add32(t,e),add32(a,n)),add32(t<<r|t>>>32-r,i)}function ff(e,t,i,a,r,n,o){return cmn(t&i|~t&a,e,t,r,n,o)}function gg(e,t,i,a,r,n,o){return cmn(t&a|i&~a,e,t,r,n,o)}function hh(e,t,i,a,r,n,o){return cmn(t^i^a,e,t,r,n,o)}function ii(e,t,i,a,r,n,o){return cmn(i^(t|~a),e,t,r,n,o)}function md51(e){txt="";var t,i=e.length,a=[1732584193,-271733879,-1732584194,271733878];for(t=64;t<=e.length;t+=64)md5cycle(a,md5blk(e.substring(t-64,t)));e=e.substring(t-64);var r=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0];for(t=0;t<e.length;t++)r[t>>2]|=e.charCodeAt(t)<<(t%4<<3);if(r[t>>2]|=128<<(t%4<<3),t>55)for(md5cycle(a,r),t=0;t<16;t++)r[t]=0;return r[14]=8*i,md5cycle(a,r),a}function md5blk(e){var t,i=[];for(t=0;t<64;t+=4)i[t>>2]=e.charCodeAt(t)+(e.charCodeAt(t+1)<<8)+(e.charCodeAt(t+2)<<16)+(e.charCodeAt(t+3)<<24);return i}!function(e,t,i){"use strict";"function"==typeof define&&define.amd?define(i):"undefined"!=typeof module&&module.exports?module.exports=i():t.exports?t.exports=i():t.Fingerprint2=i()}(0,this,function(){"use strict";var e=function(t){if(!(this instanceof e))return new e(t);this.options=this.extend(t,{swfContainerId:"fingerprintjs2",swfPath:"flash/compiled/FontList.swf",detectScreenOrientation:!0,sortPluginsFor:[/palemoon/i],userDefinedFonts:[]}),this.nativeForEach=Array.prototype.forEach,this.nativeMap=Array.prototype.map};return e.prototype={extend:function(e,t){if(null==e)return t;for(var i in e)null!=e[i]&&t[i]!==e[i]&&(t[i]=e[i]);return t},get:function(e){var t=this,i={data:[],push:function(e){var i=e.key,a=e.value;"function"==typeof t.options.preprocessor&&(a=t.options.preprocessor(i,a)),this.data.push({key:i,value:a})}};i=this.userAgentKey(i),i=this.languageKey(i),i=this.colorDepthKey(i),i=this.pixelRatioKey(i),i=this.hardwareConcurrencyKey(i),i=this.screenResolutionKey(i),i=this.availableScreenResolutionKey(i),i=this.timezoneOffsetKey(i),i=this.sessionStorageKey(i),i=this.localStorageKey(i),i=this.indexedDbKey(i),i=this.addBehaviorKey(i),i=this.openDatabaseKey(i),i=this.cpuClassKey(i),i=this.platformKey(i),i=this.doNotTrackKey(i),i=this.pluginsKey(i),i=this.canvasKey(i),i=this.webglKey(i),i=this.adBlockKey(i),i=this.hasLiedLanguagesKey(i),i=this.hasLiedResolutionKey(i),i=this.hasLiedOsKey(i),i=this.hasLiedBrowserKey(i),i=this.touchSupportKey(i),i=this.customEntropyFunction(i),this.fontsKey(i,function(i){var a=[];t.each(i.data,function(e){var t=e.value;void 0!==e.value.join&&(t=e.value.join(";")),a.push(t)});var r=t.x64hash128(a.join("~~~"),31);return e(r,i.data)})},customEntropyFunction:function(e){return"function"==typeof this.options.customFunction&&e.push({key:"custom",value:this.options.customFunction()}),e},userAgentKey:function(e){return

...

return decrypt.decrypt("J9iGznSGDVW69Te/CettuSobQNaxGhLgvhapl+1rsjABZDiFTpIhpXZLJAmoPEu4u8LFvatgvoVYd6VNCe7krbLwQMKGBKVB1RHwv4QizCiuVmAQ32t0oi204RjyVWnwVpi3ou0ddojPmGKefZXI5ezy8/6yin5ZgADmickWA/Xr4+nyufh160AZvdbJ4BLktUZXQ2aU4TsaVtciY4+tp2S+1r2KZhIMXRXO3h2khOwvxoEzKbEV29J+rkQcajPQx3XLUvP9wLYfCoYhGa0uTM3d9NGjSsHBlheUNLwsmwG1P+PXEJaO0OM/2rnTIEJYwhttJkNHuWEIqppqxNfn0pxnuirH2IVTQTTqBHIR4zwgejYl0LYOHXiriw66qLFmKO/CywToLzgfEumhScAIDo/Iq5QF/HCNyCyCWPW/5sAlmoh2LK1ew6vEjj2KCHuny/CsA2DspCO/2npzdzXHzsKZYhCUXSjHyyyivqFfeLIjciiJcunjQjJQaZ5bWB0Ocb4r/bd3yoUP8+N51EOCt0mBbj2MLTKnNfzJVYkTItwpNEg2FrT7t6txfz4qJP/Ciu+CCZnbtE7QZ4Ifx6odSulFApQi0almCAuA4mux7HWUw4QwBSdq+TFtYZkHLGqARE+bF1bIux1w/Ye/b5Oyl4kope24GKffRXrVzAZnydruuR9zlh6ey9ZfqOKqPbSrfOIxwWRN6May+FsdrMSbWIX3TozBvNJH5026GOaTma08bQlon7hucidUYFjfeqktN7aDcTJ1Q6q1iDUAOTkvZVMUasvgTFlq5zcnZeS2BeT+VETyOdbzHbqbBOQhSIzP02eTjGkzM6Fm30q/f5Zy6C4DAnKBAjapjyiAr2DcMbTJyoY8qxi2azdzlIuy0rAiCEVUBvvCDtRYh9hT8rycY+AorXV07N/1lIWFTKgcxywUf7lLdcmTc97O7fAw+k4RyXifygRabKfutzpcMj4yAxmdc0JMsCkKKI3I4tI3BabeAowSVZjluieCpyvLu8QZEk6Nw3lcekhOHHmplys3hY9ctsQ9iAJ8XZ8MagHmnWuKKE4oTXe8dZ9DLy9O2ZZ6ydGEoF6AKiR6oAKzsYcq4Dw1/2ps/QPcaaQgFEDXkbQmVI4Gi3bpipudpvvYVDtmWDPqo96QtnHO7IBKzjEuESvKW1SHUe43TzeUSHcBx6quwHLfQ7Y3HWIY7MZk16wl4ZQ9NV2i2kWezWASZ+I/d75OqMPHZnXgdNRdtN4G680/shHBgTF8mRLLbRtj2XvbZwBL41KHPYPk7UpTgK010B4NQTNweWTBF5EH4/0cXH3Mv5YeWcpSC5dkTz3ZrPlF6NQMra6wSR8B1KEcUS5AO0tpZMOL4qVKHTpCUPxPg3sgMJvSXF49HeF6iD/vwaTbd43mEwq5eETPR7cUtFvxNfQsE3qIy4Jv0tus/jjK6m6ppjrPonQ9pLOlwWU6r9wbnhFsS3yYvoEZSd4BQOWcq0knv7Owas0XHOo2aMztmdkETq7WdeMdoZ7WMZ/8DNu1XeEb5DYKyw+oMiwc7thO7X82BIGuRqBKXVg69ne/BiLhMI61hFWGsqo4oGjtKt6JehCQiEJ0cZ957nwV/gzFdteYz61zgh4V3F2QmCMokK7LoirEvnXRXKg9Cv1gKP8CHW3jd04e6yc3opoqspRbHjFkvV9AOKb0UgBK+oQAzGlJMgVej+o30OJWBcjw9OVgFs3UoyQfqs/GVBJb5Br4dF7mR0ND49zSlxkGLRHEbXM7VicqYeqY8fVzRBMKW/L5lXhBXK2npRIX+wanNjMh/tCyTYNovbTHXNHPZ4Iv1k/h6UI30ulRNbPUADbJkjxpsqAeSWiU7p5szZYsr4EnfCmcXDnJk5vv0vz4LRPBOh+zyCDM3R3rT7ESVE6lXtcegUXvh1tu9rI8XzSQmIW05A3sdKK11wALwJ8RRRALoZiszumd74yjvtVwFYqy8Vz5fqfqvFB9+zUD4drhpB4bkm3blwitpIooQ+sQlF4I0uxJagzkitVnG9vNqQmXQ1AMFCD3oGQ8M2leNkTbVdxIX7w34pTZf6RX+6HZd+b/v+z9FwW/3RGFRPWzOO9Sw6A/CnfWepjoHEjaEq9+IdZIJS7UNk0KidPPMHHDI9MHdiki4NP443rAOV3X2uXrgDla8Nlc0viIvtdBpPG1EIXTBxUdSl9dFQitcMNR4/tbz+MH46uXVUmYhsAi23vQ/3KMVlQQi1Bum2mtE//2/JX7oXKjlDb8eo/vux4aVNkuEBHiy+fE6CaqLyF7U8aww9A31U89F0RlpZwKJerv+YU4iluwWR/FIqp6/QKMaz88MYvp76kurFSeZmhi3n/9zQpTha84Up2HXe63WBOmcbRUNxCtXWIz2OZPcFpdwmFl690MwJu1gjB5gLalbnBCyF1n6pY3yfDBQLg71TIjuJObLnRZTEW09k49aKa0V0aBLnjCyxc2ZEupW/FAPxmohdhxaOnhlu+1bPcPnmFkBC3D4lBqLrHsjoJh752Tuq2Q5gYgzZdcu2NoUMOLykBsQ0DaNrByhUPa4RVD3zbcp3vaMY7scAxSn6dRjYsqXBSVG810ZaDtgNx2JTAb9TrW+32DRAEEEOff9GfFQFyWAh3M9LO7rHVQ2y6w6+sM41LLm6JgtrcutA1fRhhxVPmq5lbtGELiN4R+CUDODSOqI8JFdKrGcF1BwT8XzPBgWWYW4IQ=");
	},
	setCookie:function()
	{
		document.cookie="ipp_key=" + this.decrypt() + "; path=/;";
		document.cookie="ipp_uid=1564340459696/N4FmeNJBMUNxcevl/aAOhcJv1FUKPhjb6ZT1TxA==; expires=Tue, 31 Dec 2030 23:59:59 GMT; path=/;";
		document.cookie="ipp_uid1=1564340459696; expires=Tue, 31 Dec 2030 23:59:59 GMT; path=/;";
		document.cookie="ipp_uid2=N4FmeNJBMUNxcevl/aAOhcJv1FUKPhjb6ZT1TxA==; expires=Tue, 31 Dec 2030 23:59:59 GMT; path=/;";
	},
	makeUrl:function(url)
	{
		url += "fa821dba_ipp_key=" + this.decrypt() + "&" + "fa821dba_ipp_uid=1564340459696_N4FmeNJBMUNxcevl_aAOhcJv1FUKPhjb6ZT1TxA" + "&" + "fa821dba_ipp_uid1=1564340459696" + "&" + "fa821dba_ipp_uid2=N4FmeNJBMUNxcevl_aAOhcJv1FUKPhjb6ZT1TxA";
		return url;
        }
};


    (new Fingerprint2).get(function(e,t){
      salt="254900440";
      document.cookie="ipp_sign="+e+"_"+salt+"_"+md5(e+salt)+"; expires=Tue, 31 Dec 2030 23:59:59 GMT; path=/;";
      ipp.setCookie();
      location.href="https://httpbin.org/en/RU/search?q=nike&";
    })
  </script>
</body>
</html>

Написано более трёх лет назад

ThunderCat @ThunderCat Куратор тега PHP

fvckdeadline, защита на куках, которые устанавливаются через яваскрипт. Так как у вас запрос тянется не средствами браузера, куки никакие не устанавливаются и соответственно ничего не работает. Как вариант использовать браузерподобные обработчики типа фантомжс, Puppeteer и тд.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 446 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 246 просмотров
2

ответа
Показать ещё Загружается…

так где
выводится непонятный скрипт на всех страницах сайта одинаковый
что там выводится?
fvckdeadline, защита на куках, которые устанавливаются через яваскрипт. Так как у вас запрос тянется не средствами браузера, куки никакие не устанавливаются и соответственно ничего не работает. Как вариант использовать браузерподобные обработчики типа фантомжс, Puppeteer и тд.

Answer 1 · 2019-07-28 23:02:59

Dimonchik @dimonchik2013

non progredi est regredi

Selenium юзай

там JS / metarefresh проверка, requests не справится

Ответ написан более трёх лет назад

Комментировать

Как получить html страницы, защищенного от парсинга сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт