Задать вопрос
Sirion
@Sirion

Веб-скрэпинг заблокированных сайтов: что посоветуете?

Суть такова: мне нужно собирать данные с некоторых сайтов, которые заблокированы роскомпозором. Если бы я делал это руками, я использовал бы Tor или friGate, но, естественно, я не хочу делать это руками. Соответственно, видится мне два подхода. Я прошу совета, какой из них выбрать, и как его лучше реализовать.
1. Где-нибудь в интернете брать списки бесплатных прокси и методично по ним ходить. Откуда бы вы посоветовали их брать?
2. Не быть жмотом и арендовать свой прокси-сервер. Опять же, где/как это лучше сделать? Я этим никогда не занимался, и что-то мне подсказывает, что первые строки выдачи гугла приведут меня в неоптимальное место.
  • Вопрос задан
  • 319 просмотров
Подписаться 2 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 2
@jacob1237
Если бы я делал это руками, я использовал бы Tor или friGate, но, естественно, я не хочу делать это руками

Tor прекрасно работает в качестве прокси для ботов/краулеров. Весь вопрос только в стабильности соединения и попадании в черные списки IP. Потому что некоторые сервисы умеют определять принадлежность IP к сети Tor.

Если нужно делать профессионально, посмотрите на сервисы типа Crawlera. Это очень удобный авторотатор прокси.

Но если данные Вы собираете не в гигантских масштабах и не со скоростью света (фактически заваливая веб-сайты), то самый простой вариант - купить аккаунт любого зарубежного VPN-сервиса и гонять своих ботов с домашнего PC через VPN-туннель, т.е. с одного IP.
Ответ написан
Комментировать
webinar
@webinar Куратор тега Веб-разработка
Учим yii: https://youtu.be/-WRMlGHLgRg
1. вариант: Берем европейский или украинский хостинг, пишем на нем парсер - все работает мимо роскомнадзора.
2. вариант: Брем ПО типа ContentDownloader загружаем в него список не РФ прокси - парсим без проблем.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы