Как защитить контент от парсинга с помощью Nginx?

Question

P747 @P747

Как защитить контент от парсинга с помощью Nginx?

Добрый день!
Можно ли защитить контент от парсинга, если папки клиента именованы как id пользователя? К примеру проверка по токену или папки по алиасу?

Вопрос задан более трёх лет назад
1077 просмотров

Комментировать

Подписаться 5 Средний Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия DevOps-инженер

5 месяцев

Далее
Яндекс Практикум

Python-разработчик буткемп

4 месяца

Далее

Решения вопроса 1

3 комментария

AUser0 @AUser0

Аплодирую, стоя, люто! Шикарно развёрнутый ответ на по сути тупо-провокационный вопрос.
Круче только самому всю защиту написать и в рот вопрошающему положить, так сказать.

Написано более трёх лет назад
P747 @P747 Автор вопроса

Тут как бы понимаете дело не совсем в парсинге и копирование этого контента, а в его конфиденциальности. Тоесть речь идет о данных клиентов: паспорт, водительское удостоверение. Сейчас эти данные имеют примерно такой вид папок на сервере: customer/12/images/hghTFtsdfhuihcd.png По сути и так данные по логике вещей не получится спарсить, т.к. картинка имеет сгенерированное название. Но у проект менеджеров в этом плане затык, боятся выносить через симлинк в открытый доступ. По хорошему это все конечно положить через CDN, но опять же гарантии утечки со стороны CDN провайдера нет. Получение изображения через PHP и его отдача замедляет отдачу изображения и скорость падает, причем вроде как в разных сетях по-разному скорость. Тоесть это как-то сделать нужно так чтобы истинный путь до изображения заменялся например сгенерированным псевдонимом пути или через токен авторизации, тоесть по сути доступ к ним имели только те сотрудники у кого доступ по роли к данному функционалу CRM открыт

Написано более трёх лет назад
rPman @rPman

так вопрос в организации доступа с помощью nginx?

ключевые слова для гугла: nginx cookies based auth или nginx auth basic (устаревший, не очень удобный на клиентской стороне но вполне работающий способ)

p.s. есть вполне рабочий способ, не требующий заметных правок nginx и при этом оставляющий статику статикой - это создание симлинков на рабочий каталог файлов сайта, имя симлинка = уникальный идентификатор доступа, выдаваемый после авторизации (собственно на сервере авотризованному пользователю создается этот симлинк, а значит по ссылке с ним пользователь получит данные иначе 404, удаление симлинка - отзыв авторизации), недостаток - не работает кеширование файлов на стороне клиента

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Nginx

Простой
Почему не работает защита?
- 2 подписчика
- 6 часов назад
- 74 просмотра
0

ответов
Ubuntu

+2 ещё

Средний
Кто сталкивался с 'Nginx invalid URL prefix' и 'Promtail client version too old' после обновления Docker на Ubuntu 24.04?
- 1 подписчик
- 13 дек.
- 153 просмотра
0

ответов
WordPress

+1 ещё

Простой
WordPress. Плагин Wordfence Security сообщает, что код подозрительный. Почему ругается плагин?
- 2 подписчика
- 10 дек.
- 134 просмотра
1

ответ
Windows

+1 ещё

Простой
Что за скрипт от Яндекса на новом ноутбуке?
- 5 подписчиков
- 10 дек.
- 942 просмотра
4

ответа
Информационная безопасность

+1 ещё

Простой
Подозрительный процесс crowsd в legacy-системе — что это может быть?
- 4 подписчика
- 10 дек.
- 267 просмотров
2

ответа
Nginx

+1 ещё

Простой
Как настроить выдачу данных с одного домена на другом в ingress k8s?
- 1 подписчик
- 07 дек.
- 96 просмотров
0

ответов
Nginx

+1 ещё

Простой
Как настроить перенаправление запроса через ingress внутри k8s?
- 1 подписчик
- 30 нояб.
- 107 просмотров
1

ответ
Информационная безопасность

Простой
Javascript, подгружаемый с servicepipe.ru, похоже сканирует локалхост. Зачем?
- 2 подписчика
- 25 нояб.
- 296 просмотров
2

ответа
Информационная безопасность

+3 ещё

Простой
Чем опасно держать свой публичный почтовый сервис?
- 3 подписчика
- 20 нояб.
- 875 просмотров
4

ответа
Информационная безопасность

Средний
Как проверяете приватные репозитории?
- 1 подписчик
- 19 нояб.
- 337 просмотров
3

ответа
Показать ещё Загружается…

Fullstack-разработчик (Python и React.JS)

Chad AI

от 200 000 ₽

Backend Developer

Playerok

от 400 000 ₽

SRE/Devops-инженер

HolyWeb

До 250 000 ₽

Answer 1 · 2021-09-17 19:37:18

Основная защита от парсинга - только при доступе к данным по авторизации и установка лимитов на данные (объем, доступный пользователю либо за какой то период времени, например сутки/месяц).

Анонимно доступные данные, в общем случае, защитить от выгрузки пользователями - невозможно. Все что пользователь видит на экране можно тупо скопировать и проанализировать.

В некоторых случаях, если собирать качественный отпечаток браузера, можно присвоить анонимным пользователям некий идентификатор и уже на его основе выставить на бакэнде лимиты доступа к данным, но как всегда трудности в мелочах и если перестараться, можно помешать работе легитимных пользователей.

Можно поставить 'палки в колеса', сделав этот процесс сложнее (и дороже), в основном это запутывание/шифрование данных, доступных напрямую (по api) с бакэнда и обфускация кода, его преобразования в видимый пользователю контент, чтобы классические (дешевые) инструменты не работали. Как всегда стоимость защиты (затрат на разработку) должна быть сравнима затрат граберов на получение данных (обычно им проще).
К сожалению вместе с контент-грабером, в заблуждение будут введены роботы поисковых систем, ведь их основная работа - грабить контент.

spoiler

* api не должен быть простым и интуитивно понятным, идентификаторы могут вообще не быть постоянными (их можно преобразовывать на бакэнде на основе данных в сессии)
* код javascipt, например получения ссылки на объект должен быть нетривиальным, т.е. чтобы получить следующую ссылку на требуемый граберу объект, потребовалось бы использовать сам браузер (а не простенький скрипт парсер html)
* верстка может быть непостоянной, изменяющиеся, простые гуляющие наименования классов и идентификаторов уже могут создать кучу проблем (я такое встречал), а уж постоянное изменение структуры должно совсем запудрить голову даже опытным граберам (не встречал)
* шрифт может не являться правильным (видимые символы могут не соответствовать их кодам), при этом генерируемый каждый раз новый под конкретную сессию пользователя. Простая подстановка, сильно усложнит (но не сделает невозможной) получение данных через буфер или document.innerText в консоли браузера, оставив граберу только вариант распознавание экрана скринридером (а не тривиальная верстка потребует от пользователя сложную настройку и автоматизацию и эти инструменты)
* типовые javascript методы браузера должны быть замещены на 'неправильно работающие', чтобы граберу пришлось использовать внешние скрипты а не простой инжект javascript (обычно это сильно упрощает).

Answer 2 · 2021-09-17 19:03:01

Не нужно вешать на nginx задачу защиты от парсинга, он не для этого создан.
Защищаться надо собственными силами на бэке

Answer 3 · 2021-09-17 19:59:55

Могу порекомендовать доклад от 2GIS и их вариант с написанием lua-модуля для nginx (opernresty)
https://www.youtube.com/watch?v=pYxnW7kYcbU

Доклад как минимум полезен тем, что там есть полезная информация о том как выявлять парсеры и что с этим делать.

Answer 4 · 2021-09-17 23:38:22

montray @quiex

Коротко - никак.

Ответ написан более трёх лет назад

Комментировать

Как защитить контент от парсинга с помощью Nginx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт