Парсинг сайта. Как правильно реализовать много успешных запросов?
Здравствуйте, нужно парсить сайт. На этом сайте есть много ссылок и в каждой ссылке при переходе отображается полная информация. Данные меняются каждую секунду на сайте. Но мне достаточно интервал обновления 7 секунд.
То есть, если на сайте 100 ссылок. То мне нужно обойти каждую ссылку, чтобы получить всю информацию. И так каждые 7 секунд. То есть количество запросов очень большое. И сервер через некоторое большой промежуток времени меня блокирует(30-40 минут). Я понимаю, что я поступаю плохо, но хочется работу закончить:)
Вижу несколько способов решения этой проблемы:
1. Найти возможность скачивать один раз всю информацию за один запрос(API, общая страница). Такого я не нашел на данном ресурсе.
2. Использовать прокси. Здесь появилась проблема, они очень медленно работают. И их нужно по идее больше 10 на такое количество. Есть идея приобрести сервера и использовать их в качестве proxy
Прокси самый выгодный вариант, как мне кажется. Только я не могу реализовать, чтобы обновлялась с сайта через каждое определенное время. Могли бы Вы мне помочь? Может есть еще какие-либо варианты реализации этой проблемы. И если прокси - это единственный вариант. То как мне лучше реализовать этот алгоритм и вообще что почитать на эту тему. Спасибо!:) Пользуюсь Python 3
xmoonlight: Сильно зависит от того сколько надо и на что.
Вот тут брал довольно шустрые https://www.proxy.house/
Но это если немного, если листы нужны на 100-500приличных прокси тоже где-то валяется адрес могу найти.
Но это когда важна скорость.
Когда не важно - пачку бесплатных подсунул найденных на просторах и пусть он их перемалывает, конечно там около 70% или не работает или забанены, но зато бесплатно.
АртемЪ: "Но это когда важна скорость." - она важна, когда ты ведёшь ком. деятельность или заранее видишь выгоду в контенте, который ещё открыт публично. Иначе - вообще можно не парсить)
xmoonlight: Ну задачи бывают очень разными. И скорость понятие растяжимое.
Иногда надо оперативно получать информацию с одного ресурса - это одно. Там важны минуты.
Иногда надо обойти миллион ресурсов и вытащить определенную информацию - это другое. Тут как правило неделя, месяц на обход это вполне нормально.
Немного не понял про контент который не открыт публично - он тут при чем? Парсингом его не получить.
Дмитрий Матвеев: грузите страницу с инклудом своего скрипта в среду исполнения V8 (чтобы JS исполнялся и у Вас был доступ к DOM-у) и дальше - ловите по объектам в DOM даже не разбираясь: как оно там и что генерит.... Первые 3 дня - да, сложно. Как настроите связку - даю гарантию, что вспомните мой (этот) коммент ещё ни раз!