Задать вопрос

Вопрос по поводу организации сайта на статическом HTML #2?

Доброй ночи комрады.



В продолжение прошлого вопроса, за ответы на который отдельное спасибо, прошу совета.



Статику настроила через SSI без CMS, PHP, RUBY.



Вопрос популярный и ответ я на него знаю, но все же: Как защитить контент?



Ответ «Никак» принимается с оговорками.



Дело в том, что, чистого текста с кодом около 80 Мб. Сейчас переводится на другие языки — будет, около 400 Мб. И да, это без изображений.



На копирайт мне наплевать, так как я уверена в том, что все поисковики примут за первоисточник.



Руками пусть копируют, я не против. Но вот как уйти от телепортов всяких и т.п. парсеров. 7 лет работы и хобби, как никак.



Есть идея ограничением соединений на сервере, но настройка ВПС и ВДС для меня темный лес. Вообще думала на шареде остаться, т.к. без скриптов, но ограничения в таком случае не настроишь, как я понимаю.

Вроде такие штуки на php делать можно, но они очень ресурсоемкие…



Поделитесь опытом пожалуйста или вариантами решений. Возможно .htacess?



1) Какие есть варианты ограничения соединений? И на шаре и на ВПС/ВДС.

2) Возможно есть еще какие то способы защиты от парсинга и «тупой скачки по урл», но не в ущебр поисковым роботам.

3)Насколько они ресурсоемки?



Заранее спасибо, дорогие мои.
  • Вопрос задан
  • 2760 просмотров
Подписаться 3 Оценить 2 комментария
Пригласить эксперта
Ответы на вопрос 9
Fesor
@Fesor
Full-stack developer (Symfony, Angular)
Как-то мне кажется что «защита контента» иногда переходит в паранойу. Найти способ скопировать всегда можно, вопрос в другом, а чем это так плохо? Поисковики, как вы говорите, будут выдавать вас как первоисточника. Телефорты и прочие оффлай-браузеры… а кто-то ими еще пользуется? Мне казалось что это было актуально только в декаду диалапа
Ответ написан
Комментировать
@Vampiro
Что бы вы не придумывали, в текущих реалиях вы вынуждены отдавать поисковикам текст для индексации. А это автоматически позволяет любому желающему забрать содержимое из кеша гулга, или других подобных ресурсов. Мое вам решение: не заморачивайтесь, и стремитесь почаще обновлять содержимое. Тогда любое «скачивание офф-лайн»/«копирование на другой сайт» станет очень быстро неактуально.

HTML5 позволяет пользователю показывать сайты даже если соединения с Интернетом нет, кешируя у клиента все что можно. Это нормальная практика. Не идите против ветра =) Ведь это всего-лишь хобби!
Ответ написан
savostin
@savostin
Еще один программист
Никак.
Ответ написан
Комментировать
SerDIDG
@SerDIDG
В общем-то контент никак не защитить, кроме как платной подписки, только при наличии которой контент и будет выдаваться. Если даже сделать картинкой весь текст: а) его без проблем можно будет распознать, например в Fire Reader, б) есть тысячи сайтов, где хомячки за довольно маленькую сумму наберут любой текст. Правильный seo — самая лучшая защита.
Ответ написан
Lerg
@Lerg
Defold, Corona, Lua, GameDev
Можно настроить веб сервер, чтобы ограничивал доступ к страницам не чаще одного раза в секунду для каждого пользователя (или ip). Это немного (совсем немного) опечалит работу парсерам. Как это лучше настроить сам не скажу.
Ещё вариант выдавать контент джаваскриптом через ajax и #! (hashbang) ссылки. Это тоже немного опечалит парсеры. Но появится дополнительная работа по индексации и это уже совсем не статичные HTML страницы.
Ответ написан
@rPman
Не буду повторять вышесказанные очевидности… но порекомендую мыслить в следующем направлении:
1. разделить контент (статьи) на две части короткое емкое описание и полный текст
2. ограничить доступ к полным статьям поисковым роботам (кому от этого плохо? так ли вам нужны поисковики на весь контент?)
3. ограничить доступ к полным статьям на пользователей (куки)
3.a) изучать рефереры и юзерагент (в общем случае можно даже выявить не совсем опытных сканеров, последовательно выкачивающих ресурсы, вычисляя распределение во времени и т.п. не тривиально но реально)
3.b) ip, подсети (под суетитесь и соберите информацию о доступных хостерах и их подсетях), анонимных прокси, i2p и tor роутерах, информация обо всем этом общедоступна.
p.s. интересно, можно ли у антивирусных компаний запрашивать информацию о текущих сетях ботнетов?
Ограничение — частота возможных запросов, при превышении отлуп… при достаточно большом объеме данных время, которое потребуется атакующему собрать все данные станет неадекватно большим даже при наличии ресурсов вида маленький ботнет
4. ссылка на полную статью размещается в короткой статье, статичной делать ее нельзя — т.е. должна формироваться каждый раз новая, легко вычисляемой тоже (детские глупости в виде последовательно растущего номера тут не подходят), воспользоваться всем что доступно в аресенале для защиты от ботов, полиморфный javascript, привязка скрипта к багам популярных браузеров (защита от интерпретаторов), капчи как графические так и логические загадки

Если после этого вы не распугаете всех своих посетителей, возможно вы продержитесь пол года-год :)
Ответ написан
alekciy
@alekciy
Вёбных дел мастер
Автору рекомендую бросить данную идею как несостоятельную. Если на клиент отдается текст, то он будет без проблем получен ботом. Ограничение количества запросов, хитрый JavaScript в наше время легко обрабатываются. В сети достаточно готовых опенсорных решений из которых можно построить любой парсер-бот.

Могу сказать только один механизм который осложняет получение контента — текст в виде картинок низкого качества. Но и это тоже решаемо через тот же FineReader, т.е. и для этого варианта тоже готовые инструменты уже давно есть и используются. Конечно, при распознавании с картинок низкого качества ошибок много и если нужен исходный контент, то приходится привлекать человека для контроля полученного текста. Но в итоге все равно требуемое парсер получает. А про поисковики в этом случае можно сразу забыть.

В общем задача в текущей формулировке — борьба в ветряными мельницами.
Ответ написан
Комментировать
@Neir0
Простое решение проблемы:
Роботы поисковых систем имеют определенный диапазон ip адресов, соответственно контент следует отдавать только им, а обычным пользователям стереоскопическое изображение, тогда не получится распознать с помощью файнридера :))

Это конечно шутка, но идея я думаю понятна. Пока поисковики проиндексируют ваш сайт пройдет много времени. И поисковикам можно отдавать не настоящий контент, а его часть или видоизмененный, например генерировать его на основе вашего же текста с использованием цепей маркова. Но я бы на всякий случай сразу два доменных имени прикупил:)
Ответ написан
1) через Яндекс.Вебмастер (http://webmaster.yandex.ru/) и Оригинальные тексты уведомите об авторстве на тексты
2) частично через правила для .htaccess (http://www.linuxrsp.ru/artic/25_htaccess_rules.html)
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы