Что нужно сделать для того, чтобы на стороннем сервере не заблокировали, если я оттуда граблю данные?

Question

DemonIa @DemonIa

Парсинг

Что нужно сделать для того, чтобы на стороннем сервере не заблокировали, если я оттуда граблю данные?

Есть некий известный сайт, который не предоставляет публичного API, но его фронт делает раз в несколько секунд ajax запросы к серверу, поддерживая таким образом актуальность данных.

В заголовках ничего связанного с CORS нет, поэтому можно просто cURL'oм делать запросы к этому серверу и получать нужные данные.

Но мне очень сильно кажется, что если я запущу на своем сервере приложение, которое будет круглосуточно делать определенное количество запросов, то IP моего сервера забанят, и я останусь ни с чем.

Вопрос: что можно сделать для того, чтобы избежать блокировки в будущем?

Мои мысли по этому поводу:
1. Собрать массив с 50 (например) разных User-Agent's и при каждом запросе подставлять в заголовок некий случайный элемент из массива. Таким образом будет проще "затеряться в толпе".
2. Купить пул IP адресов, и случайным образом делать запросы через них. Насколько я понимаю, для решения подобных задач придумали Proxy-сервера.
Если я куплю пакет IP-шников, например тут ( proxywhite.com ) что мне с ними делать дальше? Интересует именно техническая сторона вопроса?
Есть ли какие-то готовые решения для привязки пула IP к веб-серверу работающему на NodeJS?

Спасибо!

Вопрос задан более трёх лет назад
296 просмотров

3 комментария

Подписаться 3 Средний 3 комментария

Помогут разобраться в теме Все курсы

AndroidSprint

Попробуйте себя в роли разработчика за 10 дней

1 неделя

Далее
Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 154 просмотра
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 224 просмотра
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 192 просмотра
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 200 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 254 просмотра
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 130 просмотров
1

ответ
Python

+2 ещё

Средний
Как правильно принимать платежи пользователей в сети Tron?
- 1 подписчик
- 03 сент.
- 221 просмотр
3

ответа
Парсинг

Средний
Как отслеживать парсеров?
- 4 подписчика
- 30 авг.
- 564 просмотра
2

ответа
Python

+2 ещё

Простой
Как анти-бот системы определяют ботов и как от них защищаться?
- 2 подписчика
- 13 авг.
- 400 просмотров
1

ответ
Python

+1 ещё

Простой
Можно ли отключить SSL сертификат при парсинге?
- 1 подписчик
- 13 авг.
- 205 просмотров
0

ответов
Показать ещё Загружается…

Инженер по инцидентам информационной безопасности

SMALL

от 3 400 до 4 700 $

DevOps / Python-разработчик

ЛСЦТ • Москва

от 280 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Там могут вообще это не отслеживать и не забанить никогда
Сегодня кстати день Пирата! Поздравлямс!
Сергей, Ну, не отслеживать было бы тупо. Они отслеживают и блокируют при большом количестве запросов на определенное время. Скорее всего, автоматически, а не вручную, но все же.

Answer 1 · 2018-09-19 21:04:22

Первым делом я бы протестировал на другом сервере, а действительно ли будет забанен ip при большом кол-ве запросов. Такое встречается не так уж и часто.
Подмена user-agent вряд ли поможет.
Остается два варианта - или ограничить частоту запросов (Например 1 в секунду) или через прокси.
Как вариант сделать так - имеем массив с прокси и или достаем информацию через них подключаясь к ним по очереди, или достаем информацию асинхронно, где каждый запрос на отдельном прокси имеет паузу в пару секунд.

Answer 2 · 2018-09-25 02:18:25

1) помимо заголовка user-agent, ваша "цель" так-же может определять ботов по другим параметрам (включенный flash, js, web-rtc и т.д.). Воспользуйтесь сниффером, чтобы узнать какие данные "тянет" сайт с клиента
2) Вы мыслете в правильную сторону. Не думаю что в вашем случае, обязательно пользоваться платными прокси - публично-доступных будет достаточно

Answer 3 · 2019-02-28 18:33:39

DoctorGata @DoctorGata

Есть прокси-провайдер резидентных прокси. Пул IP - 10 миллионов, 190+ стран.

Ответ написан более трёх лет назад

Комментировать

Что нужно сделать для того, чтобы на стороннем сервере не заблокировали, если я оттуда граблю данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт