Ivan Yakushenko, я связывался с паблик бесплатными прокси, автоматом парсил их из нескольких источников и запускал чекер, если 1 запрос прошел по https к известному ресурсу с таймаутом 10 сек, то считал его активным. Помню повозился я с этим до меры когда в базе было пару млн проксей из них активных пару сотен и те с плохой скоростью, и те нерабочие. Потом заметил интересрое, многие паб прокси выполняют 1 успешный и быстрый запрос, а дальше отказываются, искуственная настройка на 1 запрос на лицо. Паблик прокси - это грязь и помойка, не связывался больше. А ты прокси где покупаешь?
Ivan Yakushenko, какой объем прокси? тысячи, десятки, сотни тысяч? Это затраты, причем большие, и тот кто захочет забрать всю инфу - заберет, просто купив сотни тысяч проксей, но эта схема отсеит всех остальных злодеев
xmoonlight, да, это и есть наверное контроль эффективности этой защиты. Т. е. в конечном счете все злодеи отсеятся, а останутся лишь самые заинтересованные у которых достанет средств и желания. В итоге все сведется к десяткам или сотням тысяч прокси + имитаторы и т.д., и тут, естесственно, понимаю, что ничего уже не поможет. Но это можно будет считать как выполненную задачу.
Ivan Yakushenko, мне не к чему это. Просто я задаю правила скорости посещения, а собственно и копирования инфы. Текушая разрешенная 3 запроса в 10 сек. Все что работает быстрее - нарушитель, будь то юзер живой или парсер.
Ivan Yakushenko, обратный днс серверов сервиса cloud.yandex.ru возвратит не yandex.ru/net/com (как в документации), а cloud.yandex.ru.
Жаль нельзя ограничивать доступ к своим вопросам отлельным юзерам. Обьективно - ты только путаешь и мешаешь своими ответами на мой вопрос.
xmoonlight, собственно говоря поэттму я и спрашиваю у сообщества) В чем бред? Да, с такой скоростью можно спарсить 5кк страниц за пол года и как раз это бред
Ivan Yakushenko, боже, ты флудишь не проверив инфу, отвечаешь на вопрос просто для себя, чтобы убедить и других в своем надуманном ошибочном мнении. Чудо бложик)
Токсичный житель незалежной, не токси мне тут вопрос, не отпугивай людей) Чекай тут, посамообразовывайся хоть) https://yandex.ru/support/webmaster/robot-workings...
UPD
можно не скачивать все ip, а выполнять обратный dns запрос и сверять хосты с разрешенными + добавлять эти ip в БД, чтобы дальше минимизировать запросы dns