Вопрос по поводу организации сайта на статическом HTML #2?

Question

zaka @zaka

Вопрос по поводу организации сайта на статическом HTML #2?

Доброй ночи комрады.

В продолжение прошлого вопроса, за ответы на который отдельное спасибо, прошу совета.

Статику настроила через SSI без CMS, PHP, RUBY.

Вопрос популярный и ответ я на него знаю, но все же: Как защитить контент?

Ответ «Никак» принимается с оговорками.

Дело в том, что, чистого текста с кодом около 80 Мб. Сейчас переводится на другие языки — будет, около 400 Мб. И да, это без изображений.

На копирайт мне наплевать, так как я уверена в том, что все поисковики примут за первоисточник.

Руками пусть копируют, я не против. Но вот как уйти от телепортов всяких и т.п. парсеров. 7 лет работы и хобби, как никак.

Есть идея ограничением соединений на сервере, но настройка ВПС и ВДС для меня темный лес. Вообще думала на шареде остаться, т.к. без скриптов, но ограничения в таком случае не настроишь, как я понимаю.

Вроде такие штуки на php делать можно, но они очень ресурсоемкие…

Поделитесь опытом пожалуйста или вариантами решений. Возможно .htacess?

1) Какие есть варианты ограничения соединений? И на шаре и на ВПС/ВДС.

2) Возможно есть еще какие то способы защиты от парсинга и «тупой скачки по урл», но не в ущебр поисковым роботам.

3)Насколько они ресурсоемки?

Заранее спасибо, дорогие мои.

Вопрос задан более трёх лет назад
2764 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Профессиональная вёрстка на HTML и CSS

3 месяца

Далее
Stepik

Основы HTML и CSS

2 недели

Далее
Бруноям

Вёрстка на HTML и CSS

3 месяца

Далее

Пригласить эксперта

Ответы на вопрос 9

Комментировать

1 комментарий

Комментировать

1 комментарий

4 комментария

kirushik @kirushik

Лимитирование отдачи при малейшей неправильности настройки чревата выпадением из поисковиков.
Не великовата ли цена?

Написано более трёх лет назад
Алексей Сундуков @alekciy

Касательно лимитов kirushik правильно говорит, можно из поиска вообще улететь. Последних несколько лет поисковики обращают внимание на скорость отклика и тормозные сайты понижают. Скорость обхода конечно можно регулировать через robots.txt, но не все поисковые роботы понимают соответствующие директивы.

JavaScript? AJAX? Два раза хаха. Парсер для таких вариантов пишется за день, у самого пару таких. Все что отдано на клиент может быть обработано и скачано роботом. Без вариантов.

Написано более трёх лет назад
Sergey Lerg @Lerg

alekciy, ну я и говорю «немного».
Про то, что индексация страдает от лимитов не знал, тогда действительно нет смысла в этом.

Написано более трёх лет назад
Алексей Сундуков @alekciy

Даже где-то в факе яндекса проскальзывали эта инфа. Точный линк сейчас не найду, но я столкнулся с этим когда у одно из клиентов сайт стал терять позиции. Оказалось, что он вот тоже как автор «оптимизировал» сервер и его начали понемногу снижать.

Написано более трёх лет назад

2 комментария

Алексей Сундуков @alekciy

Для противодействия такого уровня требуется соответствующая квалификация. Даже при наличие оной задачей противодействия придется заниматься постоянно. И даже если бы у автора была бы возможность все это осуществить, я могу абсолютно точно заявить, что все эти ухищрения спокойно обходятся.

P.S. Разные хитрые JS которые может обработать браузер так же легко могут быть обработаны и сервером. WebKit на сервер ставиться и работает абсолютно без проблем даже без всяких Х-ов.

Написано более трёх лет назад
rPman @rPman

Вебкит сложнее установить на компьютерах ботнета, но конечно не невозможно.
Вы вынуждаете меня капитанствовать и повторять все вышесказанное другими, с чем я и так согласен, сохранить данные от копирования при одновременном предоставлении прямого доступа к ним — нереально сложная задача и не решается в общем случае.

Это вопрос времени и сил, которые могут быть кинуты на ее решение с обоих сторон (владельца и атакующих).

Написано более трёх лет назад

Комментировать

4 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

JavaScript

+2 ещё

Простой
Как сделать резкое переключение слайдов?
- 1 подписчик
- 03 дек.
- 139 просмотров
0

ответов
HTML

+1 ещё

Средний
В какую сторону копать решение чтобы решить проблему с наложением?
- 1 подписчик
- 22 нояб.
- 140 просмотров
0

ответов
HTML

+1 ещё

Простой
Как растянуть вложенный блок внутри других блоков на максимальную длину, но не более чем на ширину страницы?
- 1 подписчик
- 21 нояб.
- 137 просмотров
0

ответов
HTML

+1 ещё

Простой
Как реализовать форму ввода как в веб-версии chatGPT?
- 3 подписчика
- 13 нояб.
- 237 просмотров
0

ответов
JavaScript

+2 ещё

Простой
Как сделать горизонтальный скролл стрелками?
- 1 подписчик
- 05 нояб.
- 285 просмотров
1

ответ
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 221 просмотр
0

ответов
HTML

Простой
При клике на кастомную кнопку “Скачать” не происходит переход, хотя JS-обработчик отрабатывает. Как решить?
- 1 подписчик
- 29 окт.
- 201 просмотр
0

ответов
HTML

+1 ещё

Простой
Как создать карточки в рядах со смещением?
- 1 подписчик
- 28 окт.
- 133 просмотра
2

ответа
HTML

+1 ещё

Простой
Как в руководстве steam сделать обтекающий картинку текст?
- 1 подписчик
- 08 окт.
- 154 просмотра
1

ответ
HTML

+1 ещё

Средний
Скачал плагин image preview в вс коде, чтобы установить иконку сайта. Иконка появилась в браузере, но не появилась слева напротив строки. Почему так?
- 1 подписчик
- 30 сент.
- 161 просмотр
1

ответ
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Frontend-разработчик (Vanilla JS, high-load media platform)

Karma8

от 200 000 до 300 000 ₽

Frontend разработчик React / Next.js

PurpleSchool

До 65 000 ₽

Спасибо за ответы, но, мне кажеться никто, не дочитал влпрос до конца.

Я не против — пусть копируют, пусть HTML 5 кеширует, если они посетят страницу.

Я прошу совета, как ограничить получение информации в автоматическом режиме, например с 1 ip ограничить количество соединений в единицу времени.

Спасибо.
Какая цель этого ограничения?
Имхо, ограничение — это средство для достижения какой-то цели.

Answer 1 · 2012-05-27 04:15:11

Как-то мне кажется что «защита контента» иногда переходит в паранойу. Найти способ скопировать всегда можно, вопрос в другом, а чем это так плохо? Поисковики, как вы говорите, будут выдавать вас как первоисточника. Телефорты и прочие оффлай-браузеры… а кто-то ими еще пользуется? Мне казалось что это было актуально только в декаду диалапа

Answer 2 · 2012-05-27 05:53:29

Что бы вы не придумывали, в текущих реалиях вы вынуждены отдавать поисковикам текст для индексации. А это автоматически позволяет любому желающему забрать содержимое из кеша гулга, или других подобных ресурсов. Мое вам решение: не заморачивайтесь, и стремитесь почаще обновлять содержимое. Тогда любое «скачивание офф-лайн»/«копирование на другой сайт» станет очень быстро неактуально.

HTML5 позволяет пользователю показывать сайты даже если соединения с Интернетом нет, кешируя у клиента все что можно. Это нормальная практика. Не идите против ветра =) Ведь это всего-лишь хобби!

Answer 3 · 2012-05-27 09:25:37

Сергей Савостин @savostin

Еще один программист

Никак.

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2012-05-27 04:19:37

В общем-то контент никак не защитить, кроме как платной подписки, только при наличии которой контент и будет выдаваться. Если даже сделать картинкой весь текст: а) его без проблем можно будет распознать, например в Fire Reader, б) есть тысячи сайтов, где хомячки за довольно маленькую сумму наберут любой текст. Правильный seo — самая лучшая защита.

Answer 5 · 2012-05-27 09:44:41

Можно настроить веб сервер, чтобы ограничивал доступ к страницам не чаще одного раза в секунду для каждого пользователя (или ip). Это немного (совсем немного) опечалит работу парсерам. Как это лучше настроить сам не скажу.
Ещё вариант выдавать контент джаваскриптом через ajax и #! (hashbang) ссылки. Это тоже немного опечалит парсеры. Но появится дополнительная работа по индексации и это уже совсем не статичные HTML страницы.

Answer 6 · 2012-05-27 10:19:54

Не буду повторять вышесказанные очевидности… но порекомендую мыслить в следующем направлении:
1. разделить контент (статьи) на две части короткое емкое описание и полный текст
2. ограничить доступ к полным статьям поисковым роботам (кому от этого плохо? так ли вам нужны поисковики на весь контент?)
3. ограничить доступ к полным статьям на пользователей (куки)
3.a) изучать рефереры и юзерагент (в общем случае можно даже выявить не совсем опытных сканеров, последовательно выкачивающих ресурсы, вычисляя распределение во времени и т.п. не тривиально но реально)
3.b) ip, подсети (под суетитесь и соберите информацию о доступных хостерах и их подсетях), анонимных прокси, i2p и tor роутерах, информация обо всем этом общедоступна.
p.s. интересно, можно ли у антивирусных компаний запрашивать информацию о текущих сетях ботнетов?
Ограничение — частота возможных запросов, при превышении отлуп… при достаточно большом объеме данных время, которое потребуется атакующему собрать все данные станет неадекватно большим даже при наличии ресурсов вида маленький ботнет
4. ссылка на полную статью размещается в короткой статье, статичной делать ее нельзя — т.е. должна формироваться каждый раз новая, легко вычисляемой тоже (детские глупости в виде последовательно растущего номера тут не подходят), воспользоваться всем что доступно в аресенале для защиты от ботов, полиморфный javascript, привязка скрипта к багам популярных браузеров (защита от интерпретаторов), капчи как графические так и логические загадки

Если после этого вы не распугаете всех своих посетителей, возможно вы продержитесь пол года-год :)

Answer 7 · 2012-05-27 14:53:59

Автору рекомендую бросить данную идею как несостоятельную. Если на клиент отдается текст, то он будет без проблем получен ботом. Ограничение количества запросов, хитрый JavaScript в наше время легко обрабатываются. В сети достаточно готовых опенсорных решений из которых можно построить любой парсер-бот.

Могу сказать только один механизм который осложняет получение контента — текст в виде картинок низкого качества. Но и это тоже решаемо через тот же FineReader, т.е. и для этого варианта тоже готовые инструменты уже давно есть и используются. Конечно, при распознавании с картинок низкого качества ошибок много и если нужен исходный контент, то приходится привлекать человека для контроля полученного текста. Но в итоге все равно требуемое парсер получает. А про поисковики в этом случае можно сразу забыть.

В общем задача в текущей формулировке — борьба в ветряными мельницами.

Answer 8 · 2012-05-28 05:38:52

Простое решение проблемы:
Роботы поисковых систем имеют определенный диапазон ip адресов, соответственно контент следует отдавать только им, а обычным пользователям стереоскопическое изображение, тогда не получится распознать с помощью файнридера :))

Это конечно шутка, но идея я думаю понятна. Пока поисковики проиндексируют ваш сайт пройдет много времени. И поисковикам можно отдавать не настоящий контент, а его часть или видоизмененный, например генерировать его на основе вашего же текста с использованием цепей маркова. Но я бы на всякий случай сразу два доменных имени прикупил:)

Answer 9 · 2012-05-28 16:14:54

1) через Яндекс.Вебмастер (http://webmaster.yandex.ru/) и Оригинальные тексты уведомите об авторстве на тексты
2) частично через правила для .htaccess (http://www.linuxrsp.ru/artic/25_htaccess_rules.html)

Вопрос по поводу организации сайта на статическом HTML #2?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт