Почему сервер не отдаёт файл по прямой ссылке?

Question

AnnaGrimes @AnnaGrimes

PHP
Nginx

Почему сервер не отдаёт файл по прямой ссылке?

Здравствуйте! Есть сайт который я пытаюсь парсить и у меня есть прямые ссылки на все файлы которые мне нужны с этого сайта и которые были собраны заранее (все файлы графические - jpg). На сайте какая-то защита, существует конкретное число файлов которые можно скачивать с него а если идёт превышение то по этим прямым ссылка открывается просто пустота. Как такое может быть если я обращаюсь по прямым ссылкам, что сейчас по этой ссылке графика, а потом пустота? Как обойти такое ограничение?

P.S. У меня нет нормальных прокси а всё что пробовала - очень тормозное но тем не менее через них всё работает какое-то время и каждый лимит нужно просто менять прокси но речь идёт про огромное количество файлов и такой способ просто не подходит.

Как обойти эту защиту? Помогите советом пожалуйста!

Спасибо!

Вопрос задан более трёх лет назад
472 просмотра

7 комментариев

Подписаться 2 Оценить 7 комментариев

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

24 комментария

AnnaGrimes @AnnaGrimes Автор вопроса

Вот спасибо, сейчас опробую Вашу функцию! По поводу тегов: я написала "NginX" потому что именно он - гад, не делится со мной файлами, сервер не отдаёт картинку даже если просто после лимита напрямую запросить её через браузер. Но Вы правы, PHP тег тут больше к месту, т.к. решение нужно именно на нём и я его уже вписала!

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Также пустота, $output == NULL :( Остаётся надеяться только на Тор получается.

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

а curl в PHP точно есть? :)

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

и опять же, в output пустота сразу, или тоже через несколько запросов?

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: да, конечно cURL есть и включён, я через него (и simple_html_dom.php) изначально все прямые ссылки и собрала, я использую OpenServer последней версии. Лимит работает именно на скачку, а бегать по самому сайту можно сколько угодно и парсить что угодно (ну по крайней мере через cURL).

Пустота сразу, потому что на вход я даю одну из прямых ссылок на картинку при обращении по которой в браузере пустота. А если я завтра попробую эту ссылку вновь открыть то там откроется та картинка, ну а если я запрошу эту картинку допустим 50 раз то и она перестанет показываться и все остальные. Вот так вот :( Печалька

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: и я уверена что Ваша функция завтра станет рабочей, но после лимита она не достаёт необходимое :( В Торе сейчас всё открывается, лимит заканчивается -> новое соединение и опять всё работает но это так не удобно да и графики около 300 тысяч картинок так что я прям даже и не знаю что делать :(

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

Anna Grimes: цель какая скачки конечная?

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Sharp: полностью ими обмазаться и лежать солдатиком на полу :D Для своего будущего ресурса конечно же :)

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

Anna Grimes: Это будущее насколько далеко?
Можно скачивать только необходимое сервером(когда (клиент)броузер запрашивает картинку) , сохранять у себя и в следующий раз уже брать из кеша(с диска).

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Sharp: Вот только это и осталось :D Всё остальное уже давно есть!

Ну это же сильный геморрой ведь, это я как на работу считай буду ходить :D

Я вообще впервые встречаю сайт с такими сюрпризами, обычно легко всегда всё парсилось!

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

Кстати, 1) а если браузером вот так внаглую ходить и картинки сохранять - не останавливает?
2) а если в скрипте паузу между запросами побольше сделать?
3) а реферрер?
4) к слову, как правило, самым простым оказывается связаться с админами сайта и попросить заархивировать и выложить :)

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: 1. Я буду ходить до тех пор пока есть лимит, а как он закончится - я перестану ходить :D Да и графики очень много и без автоматизации этого процесса тут никак!
2. Ну а что пауза? Счётчик лимита всё равно же крутится!
3. Реферрер Гугла писала - ничего не дало!
4. Это всё равно что попросить немножко алгоритма ранживания сайтов в выдачи у поддержки Яндекса!

Я уверена что можно их спарсить, т.к. на различных трекерах есть рип за 2011 год где далеко конечно же не всё. Ну или может быть просто тогда у них ещё не было такой защиты :( Гады они вообщем

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: да и сам факт того что они так бояться за свой контент и защищают его - говорит о том что моя просьба заархивировать мне весь его и отправить я думаю только насмешит!

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

Anna Grimes: в 1-3 я имел в виду: 1) если ходить сохранять вручную, то тоже после какого-то количества блочит?
2) а если (после блокировки) открыть страницу, на которой эта картинка в оригинале вставлена у них? Исчезает?
3) а если походить в браузере вот так вот по страницам и поскачивать картинки в количестве после которого блокируется скрипт?
4) если хоть в одном из этих случаев не блокируется, то вполне можно подпилить скрипт чтобы он эмулировал юзера в браузере: скачивал не с бешеной скоростью как по умолчанию, а с паузами (хотя при таком количестве - можно ждать вечно); подставлял в качестве реферрера страницу, на которой в оригинале вставлена картинка;

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

Anna Grimes:
if(!exists(file)){ downloadfile(file);} return get_content(file); }
Это не работа,это благодать.

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

Anna Grimes: а по поводу "боятся и защищают" - вполне возможно, что это не боязнь и защита именно контента (иначе бы вотермарки лепили), а защищают сервер от нагрузки без полезного выхлопа (типа хотлинкинга). Т.е. их сервер нагружают тысячами лишних запросов, а им от этого никакого выхлопа и канал только забивается (ущемляя пользователей, которые приносят доход).

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: 1. Да, конечно!
2. На месте где должна быть картинка иконка битой ссылки, ну знаете такая есть, типа картинка не найдена. Это можно увидеть конечно же есть попадать на страницу способом который не предусмотрен а введён в ручную. Ссылка на прямую - белый экран. Ну а если попытаться скачать после лимита и перейти на страницу скачки "обычным" способом то там пишется что лимит на сегодня исчерпан и т.п.
3. Около 60.
4. Увы :( Но я обязательно попробую с таким реферрером но сомневаюсь что это поможет. Одного реферрера я думаю маловато в данной случаи!

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

Anna Grimes: ЕСли поддерживается keep-alive,то можно с одного физического коннекта делать подряд несколько хттп запросов и качать картинку. Не факт,что это на что-то повлияет,в плане учета лимита скачек.И не уверен,что курл это поддерживает.

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

качать картинки****

Написано более трёх лет назад
Вадим Мисбах-Соловьёв @mva

Ну, в общем, решение: запастись списком прокси-серверов в количестве не менее чем в 50 раз меньше, чем нужно скачать картинок. Подправить скрипт, чтобы чаще менял адреса, менял юзерагенты, и плюс то, что выше. Ну и перед скачкой картинок с какой-либо страницы - запрашивал саму страницу. Тогда его никак нельзя будет отличить от "реального" пользователя.

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Ребята, я уже очень сильно Вам благодарно за то что Вы не равнодушны!

Я вот сейчас начала думать - а что если прямая ссылка генерируется и что по факту она только визуально как прямая ну а на деле нет? Может же такое быть? Просто я не понимаю как можно отслеживать меня если я обращаюсь на прямую в страницу где нет ничего кроме одной картинки, никаких скриптов, ничего. Знаете, вот у меня есть список прямых ссылок, завтра лимит изчезнет и если я не буду заходить на сайт в течении дня и буду выдёргивать только по этим прямым ссылкам то лимит что удивительно тоже как-то отслеживается.

В ответе сервера на компьютере где лимит изчерпан и при обращении по прямой ссылке такой ответ:
HTTP/1.1 200 OK
Server: nginx
Date: Thu, 28 Jul 2016 20:02:02 GMT
Content-Type: image/jpeg; charset=utf-8
Content-Length: 1061468
Connection: keep-alive
Keep-Alive: timeout=2
Last-Modified: Thu, 28 Jul 2016 04:42:22 GMT
ETag: "57998d2e-10325c"
Expires: Sat, 05 Nov 2016 20:02:02 GMT
Cache-Control: max-age=8640000
Cache-Control: public

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Вадим Мисбах-Соловьёв: мне нужно около 6.000 прокси серверов тогда :(

Написано более трёх лет назад
#алгоптимизируй #отботизируй @user004

Anna Grimes: Если,конечная цель выдавать картинки на своем сайте, 2 строчки кода чуть выше = lazy image loading, Иначе, не спеша, качаем. Картинки по 1 мб.

Написано более трёх лет назад
AnnaGrimes @AnnaGrimes Автор вопроса

Sharp: это только эта 1 мб. В среднем 5 мб. Есть и по 30 даже.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 388 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 239 просмотров
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 203 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 326 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 290 просмотров
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 151 просмотр
1

ответ
Nginx

+2 ещё

Простой
Контейнер rabbitmq docker стартует раньше чем сервис nginx. Как указать согласованность запуска?
- 6 подписчиков
- 26 окт.
- 951 просмотр
4

ответа
PHP

+2 ещё

Простой
Как реализовать зеркало сайт Тильда?
- 1 подписчик
- 22 окт.
- 357 просмотров
0

ответов
PHP

+1 ещё

Простой
Почему перестала работать ЮКасса?
- 1 подписчик
- 19 окт.
- 398 просмотров
1

ответ
PHP

Простой
Как вычислить результат математических операций в строке?
- 1 подписчик
- 17 окт.
- 312 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Sharp: Что за мульти Тор? Браузер Тор? ЮзерАгент меняла через cURL и обращалась по прямой ссылке - не помогло, тоже самое.
Anna Grimes: несколько торов одновременно используйте для разных айпишников. Реферер указывать можно для чистоты.
Sharp: а как запустить сайт из OpenServer'a в Торе? Вы считаете это единственным выходом? Просто Тор зачастую очень медленный :(
Anna Grimes: Тор используется как локальный http окси. Насчет скорости спорить не буду.
Еще есть вариант написать прокси для http анонимайзеров. Или где-то достать .
Sharp: спасибо Вам конечно за ответы но до меня так и не допёрло как запустить PHP скрипт в Торе. Стыдно.
Anna Grimes: php , http proxy, tor , localhost , 127.0.0.1
Гуглите. Позже, я думаю, народ разжует всё.

Answer 1 · 2016-07-28 21:00:17

Отвечая на изначальный вопрос — легко. И тысячи способов от Web Application Firewall до встроеггого в NginX lua-модуля.

Отвечая на раскрытый в комментариях вопрос:

function getContent($url, $referer = null, $proxies = array(null))
    {
        $proxies = (array) $proxies;
        $steps = count($proxies);
        $step = 0;
        $try = true;
        while($try){
            // create curl resource
            $ch = curl_init();
            $proxy = isset($proxies[$step]) ? $proxies[$step] : null;
 
            curl_setopt($ch, CURLOPT_HEADER, 0);
            curl_setopt($ch, CURLOPT_REFERER, $referer);
            curl_setopt($ch, CURLOPT_USERAGENT, "Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.9.168 Version/11.51");
            curl_setopt($ch, CURLOPT_URL, $url);
            curl_setopt($ch, CURLOPT_PROXY, $proxy);
            curl_setopt($ch, CURLOPT_TIMEOUT, 10);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); //return the transfer as a string
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
 
            $output = curl_exec($ch); // get content
            $http_code = curl_getinfo($ch, CURLINFO_HTTP_CODE); // Получаем HTTP-код
 
            // close curl resource to free up system resources
            curl_close($ch);
 
            $step++;
            $try = (($step < $steps) && ($http_code != 200));
        }
        return $output;
    }

// оффтоп: вообще, у меня есть готовый парсер на Lua, который и User-Agent и прокси на каждый запрос меняет (и сразу парсинг html в массив с данными приделан для вытаскивания нужных элементов в цикле), и сохранение из этого csv... Но, как очевидно, его (парсер) нужно под вёрстку каждого сайт затачивать :)

P.S., а ещё вы промахнулись в тегах. Конечный ваш вопрос ведь о PHP, а не NginX. Разве нет? :)

Почему сервер не отдаёт файл по прямой ссылке?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт