Как правильно парсить с python requests?

Question

12bugaga @12bugaga

Парсинг

Как правильно парсить с python requests?

Все великолепно знают основную библиотеку для парсинга на python, это requests. Так вот возник вопрос, мне необходимо обращаться к сайту каждые 5-7 секунд, очевидно, что настолько частые обращения сайт воспримет как ddos и ограничит доступ к сайту. Есть ли например такая возможность как один раз открыть сайт и постоянно считывать с него информацию, чтобы не устанавливать соединение каждые 5 секунд? Пробовал, обращаться к сайту с Тора, сразу прилетает капча, то есть не вариант, TorCrawler тоже мимо (тот же самый Тор, только чуточку сбоку).

Вопрос задан более трёх лет назад
334 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 398 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 287 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 605 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 412 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 211 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 287 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 209 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 213 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 313 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Answer 1 · 2020-04-15 21:32:21

1) 5-7 секунд - это много, поэтому это никакая не ddos атака. Многие коммерческие компании, которые парсят сайты(в том числе мвидео, озон и другие магазины) как раз парсят один товар в 5-7 секунд.
2)

Есть ли например такая возможность как один раз открыть сайт и постоянно считывать с него информацию, чтобы не устанавливать соединение каждые 5 секунд?

Есть, если только сайт отдает информацию по websocket(не зашифрованному).
3) Либо грузить страничку каждые 5-7 секунд, либо можно посмотреть в devtools, может сайт отдает информация через xhr запрос. В данном случае может быть проще парсить.

Как правильно парсить с python requests?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт