Парсинг сайта. Как правильно реализовать много успешных запросов?

Question

Дмитрий Матвеев @DmMatveev

Парсинг сайта. Как правильно реализовать много успешных запросов?

Здравствуйте, нужно парсить сайт. На этом сайте есть много ссылок и в каждой ссылке при переходе отображается полная информация. Данные меняются каждую секунду на сайте. Но мне достаточно интервал обновления 7 секунд.
То есть, если на сайте 100 ссылок. То мне нужно обойти каждую ссылку, чтобы получить всю информацию. И так каждые 7 секунд. То есть количество запросов очень большое. И сервер через некоторое большой промежуток времени меня блокирует(30-40 минут). Я понимаю, что я поступаю плохо, но хочется работу закончить:)

Вижу несколько способов решения этой проблемы:
1. Найти возможность скачивать один раз всю информацию за один запрос(API, общая страница). Такого я не нашел на данном ресурсе.

2. Использовать прокси. Здесь появилась проблема, они очень медленно работают. И их нужно по идее больше 10 на такое количество. Есть идея приобрести сервера и использовать их в качестве proxy

Прокси самый выгодный вариант, как мне кажется. Только я не могу реализовать, чтобы обновлялась с сайта через каждое определенное время. Могли бы Вы мне помочь? Может есть еще какие-либо варианты реализации этой проблемы. И если прокси - это единственный вариант. То как мне лучше реализовать этот алгоритм и вообще что почитать на эту тему. Спасибо!:) Пользуюсь Python 3

Вопрос задан более трёх лет назад
759 просмотров

1 комментарий

Подписаться 2 Оценить 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 2

7 комментариев

xmoonlight @xmoonlight

Посоветуйте: где лучше брать и как оно вообще?

Написано более трёх лет назад
АртемЪ @Jump

xmoonlight: Сильно зависит от того сколько надо и на что.
Вот тут брал довольно шустрые https://www.proxy.house/
Но это если немного, если листы нужны на 100-500приличных прокси тоже где-то валяется адрес могу найти.
Но это когда важна скорость.
Когда не важно - пачку бесплатных подсунул найденных на просторах и пусть он их перемалывает, конечно там около 70% или не работает или забанены, но зато бесплатно.

Написано более трёх лет назад
xmoonlight @xmoonlight

АртемЪ: "Но это когда важна скорость." - она важна, когда ты ведёшь ком. деятельность или заранее видишь выгоду в контенте, который ещё открыт публично. Иначе - вообще можно не парсить)

Написано более трёх лет назад
АртемЪ @Jump

xmoonlight: Ну задачи бывают очень разными. И скорость понятие растяжимое.
Иногда надо оперативно получать информацию с одного ресурса - это одно. Там важны минуты.
Иногда надо обойти миллион ресурсов и вытащить определенную информацию - это другое. Тут как правило неделя, месяц на обход это вполне нормально.

Немного не понял про контент который не открыт публично - он тут при чем? Парсингом его не получить.

Написано более трёх лет назад
xmoonlight @xmoonlight

АртемЪ: "который ещё открыт публично" ))) Вы что-то домыслили)

Написано более трёх лет назад
АртемЪ @Jump

xmoonlight: А, извиняюсь, невнимательно прочитал.

Написано более трёх лет назад
xmoonlight @xmoonlight

АртемЪ: Не вопрос, и со мной иногда бывает....
А так - да, согласен: многое зависит от задачи.
Спасибо за линк!

Написано более трёх лет назад