Задать вопрос

KlassT @KlassT

python

Почему сайт блокирует IP при парсинге?

Нужно спарсить сайт

def get_html(url):
    request = urllib.request.Request(url)
    request.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; ru; rv:1.9.1.3) Gecko/20190824 Firefox/3.5.3')

    cookies = [
        ['cookie', '__unam=4145b67-1586e230cee-29d69ac3-2'],
        ['cookie', '__utma=27978091.2013216964.1479228851.1479316541.1479316541.'],
        ['cookie', '__utmb=27978091.1.10.1479316541'],
        ['cookie', '__utmc=27978091'],
        ['cookie', '__utmt=1'],
        ['cookie', '__utmz=27978091.1479316541.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)'],
        ['cookie', '_ga=GA1.2.2013216964.1479228851'],
        ['cookie', '_gat=1'],
        ['cookie', 'PHPSESSID=3r9u07ddc62stqf6dph3592pq7']
    ]
    for cookie in cookies:
        request.add_header(cookie[0], cookie[1])

    opener = urllib.request.build_opener(urllib.request.ProxyHandler({'https': '196.145.458.269:8000'}))
    urllib.request.install_opener(opener)
    res = urllib.request.urlopen(request, timeout=600)
    return res.read()

def get_soup(html):
    soup = BeautifulSoup(html)
    return soup

def get_states():
    soup = get_soup(get_html('http://freeemailtrace.com'))
    # тут работа с данными

def main():
    get_states()

if __name__ == '__main__':
    main()

get_states() уже работает с данными. Из-за чего ещё может блокировать сайт?

Вопрос задан более трёх лет назад
569 просмотров

1 комментарий

Подписаться 4 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 544 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 493 просмотра
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 281 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 507 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 125 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 663 просмотра
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…