Как обойти блокировки сайтов?

Question

valexeich @valexeich

Как обойти блокировки сайтов?

Мне нужно часто делать запрос на один url (каждые 10 сек), но сайт после 3-4 запросов меня блочит и дает 429, пробовал менять ip для каждого запроса с помощью tor, но не помогло.

Вот код:

ua = UserAgent()

SOCKS_PORT = 9050

TOR_PATH = os.path.normpath(os.getcwd()+"\\Tor\\tor\\tor.exe")

tor_process = stem.process.launch_tor_with_config(
config = {
    'SocksPort': str(SOCKS_PORT),
    'StrictNodes' : '1',
    'CookieAuthentication' : '1',
    'MaxCircuitDirtiness' : '10',
    'GeoIPFile' : 'https://raw.githubusercontent.com/torproject/tor/main/src/config/geoip'
},
init_msg_handler = lambda line: print(line) if re.search('Bootstrapped', line) else False,
tor_cmd = TOR_PATH
)

PROXIES = {
    'http': 'socks5://127.0.0.1:9050',
    'https': 'socks5://127.0.0.1:9050'
}

url = 'https://steamcommunity.com/market/listings/730/AWP%20%7C%20Atheris%20%28Minimal%20Wear%29/render/?query=&start=0&count=100&currency=18'

for i in range(10):
    response = requests.get("http://ip-api.com/json/", proxies=PROXIES)
    result = response.json()
    print('TOR IP [%s]: %s %s'%(datetime.now().strftime("%d-%m-%Y %H:%M:%S"), result["query"], result["country"]))
    headers = {
        'User-Agent': ua.random
    }
    resp_test = requests.get(url, proxies=PROXIES, headers=headers)
    print(resp_test)
    time.sleep(11)

tor_process.kill()

Вывод:

Подскажите как решаются такие проблемы, может нужен платный прокси или как?

Вопрос задан более двух лет назад
649 просмотров

7 комментариев

Подписаться 2 Простой 7 комментариев

Vindicar @Vindicar

менять ip для каждого запроса с помощью tor, но не помогло

Tor вообще-то не для этого. Выходных узлов мало, они известны, и ряд сайтов их блочит превентивно.
Нужно либо играть по правилам стима, либо иметь 100500 рабочих прокси.

Ну и да, долбить стим маркет раз в 10 секунд... что за игры в высокочастотный трейдинг? Нафига?

Написано более двух лет назад
valexeich @valexeich Автор вопроса

Vindicar, я ищу редкие флоты на определенных предметах, и на первом же предмете после 3 проверок его страниц я получаю 429

Написано более двух лет назад
Vindicar @Vindicar

valexeich, ну так не долби так часто. Лимиты стима придётся определять опытным путём, там может быть число попыток в час, в день и так далее. Допустим, один и тот же IP можно использовать не чаще, чем раз в час - тогда тебе для круглосуточной работы понадобится 360 различных рабочих прокси. И это еще очень щедрая оценка лимитов!

Написано более двух лет назад
Jack444 @Jack444

Раз в 10 секунд это вообще не проблема для любого сайта и тем более для стима. Скорее всего через тор его уже парсят или ддосят поэтому и получаете блок, уберите тор и будет вам счастье.

Написано более двух лет назад
valexeich @valexeich Автор вопроса

Jack444, без тора тоже самое

Написано более двух лет назад
Jack444 @Jack444

valexeich, заголовки с браузера скопипастить попробуй

Написано более двух лет назад
Кот Абсолютный @CityCat4

valexeich, Тебя посчитали ботом. Внезапно, да? Поведение живого пользователя заметно отличается от поведения бота - скорость реакции мозга довольно ограничена, если человек специально не сосредоточился. Поведение браузера (в котором не запрещены скрипты) опять же отличается от поведения бота.
Стим распознает бота и отправляет тебя на южные границы Заката (в Аргос или Зингару :) )

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее

Решения вопроса 1

Ваш ответ на вопрос

Вопрос закрыт для ответов и комментариев

Потому что уже есть похожий вопрос.

Похожие вопросы

Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- вчера
- 86 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- вчера
- 137 просмотров
0

ответов
Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 363 просмотра
2

ответа
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 212 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 138 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 132 просмотра
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 249 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 106 просмотров
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 514 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 251 просмотр
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

менять ip для каждого запроса с помощью tor, но не помогло

Tor вообще-то не для этого. Выходных узлов мало, они известны, и ряд сайтов их блочит превентивно.
Нужно либо играть по правилам стима, либо иметь 100500 рабочих прокси.

Ну и да, долбить стим маркет раз в 10 секунд... что за игры в высокочастотный трейдинг? Нафига?
Vindicar, я ищу редкие флоты на определенных предметах, и на первом же предмете после 3 проверок его страниц я получаю 429
valexeich, ну так не долби так часто. Лимиты стима придётся определять опытным путём, там может быть число попыток в час, в день и так далее. Допустим, один и тот же IP можно использовать не чаще, чем раз в час - тогда тебе для круглосуточной работы понадобится 360 различных рабочих прокси. И это еще очень щедрая оценка лимитов!
Раз в 10 секунд это вообще не проблема для любого сайта и тем более для стима. Скорее всего через тор его уже парсят или ддосят поэтому и получаете блок, уберите тор и будет вам счастье.
valexeich, заголовки с браузера скопипастить попробуй
valexeich, Тебя посчитали ботом. Внезапно, да? Поведение живого пользователя заметно отличается от поведения бота - скорость реакции мозга довольно ограничена, если человек специально не сосредоточился. Поведение браузера (в котором не запрещены скрипты) опять же отличается от поведения бота.
Стим распознает бота и отправляет тебя на южные границы Заката (в Аргос или Зингару :) )

Answer 1 · 2023-07-19 19:39:56

Вы столкнулись с типичным конфликтом интересов. Видимо стиму не выгодна ваша деятельность и они хотят её осложнить для вас, сделать её для вас дороже.
Это как борьба с читерством.
Никто вам не скажет правил, по которым вас блокируют, иначе вы тут же начнёте их обходить. Более того, чтобы правила не обходили, их рандомизируют, динамически меняют, разносят во времени момент принятия решения о недобросовестности клиента и момент его блокировки, чтобы нельзя было по своим действиям и реакции системы блокирования понять и вычислить правила блокировки. Лаг между этими моментами всячески варьируют, рандомизируют, дают разное число попыток, чтобы осложнить подбор и вычисление граничных критериев системы защиты.

Не факт, конечно, что там именно такая параноидальная и замороченная система, но такое определённо имеет смысл, если надо предотвратить долбёжку и не целевое использование АПИ.

Кстати, по урлу из вашего кода источник дал мне множество раз быстро обновлять страницу. Я не заметил, чтобы там что-то менялось с такой скоростью. Изучите ответ сервера, там есть заголовки, намекающие о времени рекомендуемого кэширования ресурса.

Ещё вы рандомизируете юзер-агент, но возможно имеет смысл притвориться браузером и не скакать по юзер-агентам так уж часто, тем более по рандомным.
Сопоставить запросы между собой можно и при разных адресах, а выходные адреса тора, как вам уже сказали в комментарии к вопросу, немногочисленны и всем известны.

Как обойти блокировки сайтов?

Вопрос закрыт для ответов и комментариев

Минуточку внимания

Войдите на сайт