Пишу парсер для Amazon. Первые его версии парсили сайт напрямую через мой IP, но я столкнулся с предупреждениями о подозрительной активности, отправленными мне на почти. Чуть позже я начал использовать платные прокси от BestProxies, но 99% их не имеют возможности заходить на Amazon. Объемы парсинга сравнительно небольшие - около 1000 страниц. Парсер использую - Puppeteer.
Какие выходы есть из ситуации? Может есть сервисы для выкачки данных, а дальнейший парсинг будет проходить в офлайн режиме? Есть ли возможность работать со своего IP, но растянуть время работы программы на час или больше?
На счет best proxies не скажу, я использовал для парсинга lumunati (ныне brightdata)
Раньше там были довольно удобные тарифы на data center proxy - сейчас не знаю
Alex Karo, ты использовал какой то функционал проверки этих самых прокси? Если в массиве серверов я наткнусь на подобную ошибку - ERR_Empty_request, то парсер приостановит работу. Поэтому мне важно либо иметь только надежные прокси, либо научится отлавливать такие ошибки