Есть сайт без статитики HTML, через Charles просмотрел поэтапно загрузки страниц
1. Шаг get запрос на сайт в Headers передается куча Cookie и такой заголовк :path /glass.qqsyzsca.js , ответ получаю
x-ju: /glass.qqsyzsca.js?PID=469F0452-18FF-3E05-8072-566D9785BE96
x-uid: 35D1D4CF-FEF0-3C11-A328-C2C082899783
x-ah: rbybeswcvavfrqx
cf-ray: 2ecfc9ac9eca0485-FRA
content-type: text/javascript
И в тексте функцию JS с выполнением какого-то кода
2. После со скрипта glass.qqsyzsca.js идет POST запрос на /getSiteNotificationsAjax.htm , в заголовке передается какой то текст в функцию JS
3. Затем посылается GET на /static/js/gd-emp-photos-lightbox.js , в ответ в заголовке
vary: Accept-Encoding
p3p: CP="IDC DSP COR ADM DEVi TAIi PSA PSD IVAi IVDi CONi HIS OUR IND CNT"
x-disti-cs: BYPASS
а также в текст с функцией
4. Дальше POST запрос на /glass.tybcxseuyawxcabfft.js?PID=469F0452-18FF-3E05-8072-566D9785BE96
HEADERS Request вот какой то загадочный
x-distil-ajax: dbtuytexwtyrsaubdadae
и куча cookie
После чего через какое то время, посылается запрос HEAD path:/glass.vzutzyfyfctqsdtacbf.js?PID=469F0452-18FF-3E05-8072-566D9785BE96, где *.js меняется, в HEADERS приходят ответы
x-ju: /glass.vzutzyfyfctqsdtacbf.js?PID=469F0452-18FF-3E05-8072-566D9785BE96
x-uid: 35D1D4CF-FEF0-3C11-A328-C2C082899783
x-ah: dyzuawtv
vary: Accept-Encoding
Кто сталкивался с таким?Обычными методами curla и Phantom JS не вытащил данные, что за загадочное ПО x-distil?
Посмотреть внимательно на исходящие заголовки. Есть вероятность, что на каком-то из этапов клиентский js формирует доп. данные(на основе ранее полученных) для след. http запросов. Куча таких "хитрых" сайтов
OVK2015 Что-то похожее, но на этапе когда через x-distil-ajax передается зашифорованный текст, если его декодировать, присутсвует функция выполняющая какую-то проверку и отдающая данные, она там же useragent просматривает
Не заморачивайтесь со всеми этими www.distilnetworks.com/web-scraping. Он 1-ым же запросом отдает всю нужную вам инфу. Просто повытягивать их из ответа
OVK2015 попробуйте запустить скрипт несколько раз подряд, стерев перед этим данные
www.glassdoor.com/Overview/Working-at-Compagnie-des-Alpes-EI_IE12983.11,30.htm
Suxoi: Через час проверил,- пускают снова. Может и через меньший интервал сайт о моих curl забывает. Там полтора десятка js приходит,- лень в них ковыряться
40 бит какого заголовка они анализируют? Что за отпечаток оттуда не понять. Чтоб обойти надо хотя бы понять о чем речь.
А там: обычная рекламная статья,- какие мы молодцы.
Там вот это более интересно:
Advanced Rate Limiting
Set rate limits such as pages per minute, pages per session, and session length.
romy4 Я пробовал, у них ответы формируются динамически, вот контора которая им защиту дает, если хотите можете сами посмотреть что и как получается www.distilnetworks.com/web-scraping