@12bugaga

Как правильно парсить с python requests?

Все великолепно знают основную библиотеку для парсинга на python, это requests. Так вот возник вопрос, мне необходимо обращаться к сайту каждые 5-7 секунд, очевидно, что настолько частые обращения сайт воспримет как ddos и ограничит доступ к сайту. Есть ли например такая возможность как один раз открыть сайт и постоянно считывать с него информацию, чтобы не устанавливать соединение каждые 5 секунд? Пробовал, обращаться к сайту с Тора, сразу прилетает капча, то есть не вариант, TorCrawler тоже мимо (тот же самый Тор, только чуточку сбоку).
  • Вопрос задан
  • 325 просмотров
Пригласить эксперта
Ответы на вопрос 1
hottabxp
@hottabxp
Сначала мы жили бедно, а потом нас обокрали..
1) 5-7 секунд - это много, поэтому это никакая не ddos атака. Многие коммерческие компании, которые парсят сайты(в том числе мвидео, озон и другие магазины) как раз парсят один товар в 5-7 секунд.
2)
Есть ли например такая возможность как один раз открыть сайт и постоянно считывать с него информацию, чтобы не устанавливать соединение каждые 5 секунд?
Есть, если только сайт отдает информацию по websocket(не зашифрованному).
3) Либо грузить страничку каждые 5-7 секунд, либо можно посмотреть в devtools, может сайт отдает информация через xhr запрос. В данном случае может быть проще парсить.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы