Как защитить контент от парсинга с помощью Nginx?

Question

P747 @P747

Как защитить контент от парсинга с помощью Nginx?

Добрый день!
Можно ли защитить контент от парсинга, если папки клиента именованы как id пользователя? К примеру проверка по токену или папки по алиасу?

Вопрос задан более двух лет назад
995 просмотров

Комментировать

Подписаться 5 Средний Комментировать

Решения вопроса 1

3 комментария

AUser0 @AUser0

Аплодирую, стоя, люто! Шикарно развёрнутый ответ на по сути тупо-провокационный вопрос.
Круче только самому всю защиту написать и в рот вопрошающему положить, так сказать.

Написано более двух лет назад
P747 @P747 Автор вопроса

Тут как бы понимаете дело не совсем в парсинге и копирование этого контента, а в его конфиденциальности. Тоесть речь идет о данных клиентов: паспорт, водительское удостоверение. Сейчас эти данные имеют примерно такой вид папок на сервере: customer/12/images/hghTFtsdfhuihcd.png По сути и так данные по логике вещей не получится спарсить, т.к. картинка имеет сгенерированное название. Но у проект менеджеров в этом плане затык, боятся выносить через симлинк в открытый доступ. По хорошему это все конечно положить через CDN, но опять же гарантии утечки со стороны CDN провайдера нет. Получение изображения через PHP и его отдача замедляет отдачу изображения и скорость падает, причем вроде как в разных сетях по-разному скорость. Тоесть это как-то сделать нужно так чтобы истинный путь до изображения заменялся например сгенерированным псевдонимом пути или через токен авторизации, тоесть по сути доступ к ним имели только те сотрудники у кого доступ по роли к данному функционалу CRM открыт

Написано более двух лет назад
rPman @rPman

так вопрос в организации доступа с помощью nginx?

ключевые слова для гугла: nginx cookies based auth или nginx auth basic (устаревший, не очень удобный на клиентской стороне но вполне работающий способ)

p.s. есть вполне рабочий способ, не требующий заметных правок nginx и при этом оставляющий статику статикой - это создание симлинков на рабочий каталог файлов сайта, имя симлинка = уникальный идентификатор доступа, выдаваемый после авторизации (собственно на сервере авотризованному пользователю создается этот симлинк, а значит по ссылке с ним пользователь получит данные иначе 404, удаление симлинка - отзыв авторизации), недостаток - не работает кеширование файлов на стороне клиента

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Nginx

Простой
Запрос статичной картинки не зная формата?
- 1 подписчик
- 15 часов назад
- 61 просмотр
1

ответ
Компьютерные сети

+2 ещё

Средний
Как настроить ACL между vlan, чтобы был полный доступ с одного vlan, с другого нет?
- 1 подписчик
- вчера
- 96 просмотров
2

ответа
Nginx

Простой
Как настроить nginx forward proxy?
- 1 подписчик
- 16 апр.
- 97 просмотров
2

ответа
Nginx

Простой
Как не записывать в логи Nginx юзеров с юзер агентом yandex?
- 1 подписчик
- 13 апр.
- 90 просмотров
1

ответ
PHP

+2 ещё

Простой
Почему PHP-скрипт зависает/завершается на паузе (sleep)?
- 1 подписчик
- 11 апр.
- 121 просмотр
2

ответа
Linux

+1 ещё

Простой
Как расчитывать размеры кэшей и буферов в nginx?
- 3 подписчика
- 11 апр.
- 528 просмотров
1

ответ
Сетевое администрирование

+4 ещё

Средний
Ошибка доступности сайта. Проблема с доменами. Как исправить?
- 1 подписчик
- 10 апр.
- 160 просмотров
1

ответ
Nginx

Простой
Убрать слеш в конце домена (nginx). На внутренних страницах работает, site.ru/ нет?
- 1 подписчик
- 10 апр.
- 64 просмотра
0

ответов
Nginx

Простой
Как получать нужные данные в access_log?
- 1 подписчик
- 09 апр.
- 55 просмотров
1

ответ
Nginx

+1 ещё

Простой
Как избежать падения nginx при отсутствии backend, proxy_pass контейнера?
- 1 подписчик
- 09 апр.
- 81 просмотр
1

ответ
Показать ещё Загружается…

Системный администратор

А5000 Event Solutions • Москва

от 100 000 до 150 000 ₽

Прикладной администратор SberApps

Сбер • Москва

от 230 000 ₽

Главный технолог-эксперт

УБРиР • Екатеринбург

от 108 000 до 108 000 ₽

Написать программу иммитирующую поведение человека для выбора услуг

20 апр. 2024, в 00:08

10000 руб./за проект

Разработать мобильное приложение android "справочник студента"

20 апр. 2024, в 00:01

4000 руб./за проект

[python,go] Залить ВИДЕО в тикток

19 апр. 2024, в 23:00

5000 руб./за проект

Answer 1 · 2021-09-17 19:37:18

Основная защита от парсинга - только при доступе к данным по авторизации и установка лимитов на данные (объем, доступный пользователю либо за какой то период времени, например сутки/месяц).

Анонимно доступные данные, в общем случае, защитить от выгрузки пользователями - невозможно. Все что пользователь видит на экране можно тупо скопировать и проанализировать.

В некоторых случаях, если собирать качественный отпечаток браузера, можно присвоить анонимным пользователям некий идентификатор и уже на его основе выставить на бакэнде лимиты доступа к данным, но как всегда трудности в мелочах и если перестараться, можно помешать работе легитимных пользователей.

Можно поставить 'палки в колеса', сделав этот процесс сложнее (и дороже), в основном это запутывание/шифрование данных, доступных напрямую (по api) с бакэнда и обфускация кода, его преобразования в видимый пользователю контент, чтобы классические (дешевые) инструменты не работали. Как всегда стоимость защиты (затрат на разработку) должна быть сравнима затрат граберов на получение данных (обычно им проще).
К сожалению вместе с контент-грабером, в заблуждение будут введены роботы поисковых систем, ведь их основная работа - грабить контент.

spoiler

* api не должен быть простым и интуитивно понятным, идентификаторы могут вообще не быть постоянными (их можно преобразовывать на бакэнде на основе данных в сессии)
* код javascipt, например получения ссылки на объект должен быть нетривиальным, т.е. чтобы получить следующую ссылку на требуемый граберу объект, потребовалось бы использовать сам браузер (а не простенький скрипт парсер html)
* верстка может быть непостоянной, изменяющиеся, простые гуляющие наименования классов и идентификаторов уже могут создать кучу проблем (я такое встречал), а уж постоянное изменение структуры должно совсем запудрить голову даже опытным граберам (не встречал)
* шрифт может не являться правильным (видимые символы могут не соответствовать их кодам), при этом генерируемый каждый раз новый под конкретную сессию пользователя. Простая подстановка, сильно усложнит (но не сделает невозможной) получение данных через буфер или document.innerText в консоли браузера, оставив граберу только вариант распознавание экрана скринридером (а не тривиальная верстка потребует от пользователя сложную настройку и автоматизацию и эти инструменты)
* типовые javascript методы браузера должны быть замещены на 'неправильно работающие', чтобы граберу пришлось использовать внешние скрипты а не простой инжект javascript (обычно это сильно упрощает).

Answer 2 · 2021-09-17 19:03:01

Не нужно вешать на nginx задачу защиты от парсинга, он не для этого создан.
Защищаться надо собственными силами на бэке

Answer 3 · 2021-09-17 19:59:55

Могу порекомендовать доклад от 2GIS и их вариант с написанием lua-модуля для nginx (opernresty)
https://www.youtube.com/watch?v=pYxnW7kYcbU

Доклад как минимум полезен тем, что там есть полезная информация о том как выявлять парсеры и что с этим делать.

Answer 4 · 2021-09-17 23:38:22

montray @quiex

Коротко - никак.

Ответ написан более двух лет назад

Комментировать

Как защитить контент от парсинга с помощью Nginx?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт