Эргил Осин: Важно не то, насколько реален данный конкретный случай; важно то, что этот случай вполне вероятен, ничто не может гарантировать от подобного в жизни.
Очень интересно узнать подробности:
В какой форме приходят такие "директивы"? Чем Они угрожают в случае неисполнения?
Чем вы Их так заинтересовали (не всем же пи ходят подобные "директивы")?
В какой сфере бизнес на который работаете?
Думаю, не мне одному это интересно. Тема крайне актуальная.
В этом вопросе переплелись три разных темы:
1) Любопытство сотрудников/руководства самого провайдера - Это как-бы следует из заголовка, но, надо понимать, основное беспокойство вызывает не это.
2) СОРМ - Мой ответ в основном раскрывает эту тему, я не стал цепляться к заголовку и отвечать на него формально.
3) Письма счастья от копирастов - Наиболее болезненная тема для резидентов США и некоторых стран Европы. Для РФ (и всего экс-СССР, насколько мне известно) это пока не актуально. Тем более, что роль провайдера и государственных служб в этом сценарии минимальна.
OnYourLips: В тот то и дело, что пока влияние курса очень слабо ощущается. Но если запастись терпением и подождать еще, то можно дождаться того, что ситуация изменится.
Алексей Самойлов: https://github.com/kennethreitz/grequests - там в документации пример.
Например, grequests.map(), передаете ей список url-ов, она возвращает список response-ов, запросы при этом идут параллельно. Ну и, конечно, нужно иметь базовое представление о gevent (как monkey_patch делается хотя бы знать).
Александр Пупкин: Вам что нужно: самому подняться в поисковой выдаче или честно соблюсти чужие права? Выбирайте. СЕО вообще имеет мало общего с честностью. Это дикий мир капитализма, здесь каждый "тянет одеяло на себя" пока ему не пояснят, что он зашел слишком далеко (можно получить бан от поисковиков за плагиат, в простом случае; или иск к юр.лицу, если сайт - это официальный лендинг и на соответствующее юр.лицо удастся выйти).
Bkmz: Смысл использования Cython, в данном случае, в том, что он позволяет освобождать GIL. При этом приобретает смысл использование стандартного threading, который под GIL бесполезен в смысле распараллеливания вычислений. С этой точки зрения, применение Cython возможно рассматривать как альтернативу multyprocessing.
Detected OS = Linux 3.1-3.10
MTU = 1500
Network link = Ethernet or modem
Language = ???
Distance = 2
Sys change = 2016/01/17 13:36:53
Uptime = 57 days 10 hrs 14 min (modulo 59 days)
Вот что у меня он показывает. Угадал (примерно) только версию Linux. Но это очень широкий диапазон версий, в него попадают >70% серверов в сети. MTU и Network_link - стандарт. Distance - мало о чем говорит. Sys_change - определяет неверно (текущее время). Uptime - непонятно откуда взято значение. В общем нет ничего уникального и нет ничего такого, что стоило бы прятать/скрывать. Наоборот, отличная маскировка под серую массу, я считаю.
Богдан Гаджега: Но имейте в виду, что хост с отключенным пингом и всеми закрытыми портами выглядит гораздо более уникальным, чем просто хост под Linux. "Fingerprint and User-Agent mismatch. Either proxy or User-Agent spoofing." - эта надпись все равно будет загораться.
Богдан Гаджега: Можно закрыть VDS файрволом снаружи. Перекрыть все TCP/UDP порты кроме ssh (лучше перенести с 22 на другой порт) и порта прокси и все прочие протоколы включая ICMP, кроме некоторых ICMP-портов, необходимых для работы TCP.
Богдан Гаджега: Я написал в комментарии к вопросу. Сервис от Valdikss делает обратный запрос к ip, с которого пришел HTTP-запрос. Это уникальная фича может встречаться только в специальных сервисах подобного назначения. В промышленном веб, таким никто не занимается (хотя бы потому, что это задерживает ответ сервера на неопределенное время).
Богдан Гаджега: Хороший сервис. Но для определения ОС хоста он делает обратный запрос к хосту. Разумеется, продакшн веб-севра не будут заниматься подобным, они ограничиваются определением ОС через юзер-агент.