Занимаюсь прасингом давным давно, и могу сказать следующее:
Если вы используете дешевенькие совсем прокси, то без проксичекера не обойтись. Как должна строиться работа проксичекера(Проверяльщика прокси на работоспособность, если по русски)?
Берём прокси, обращаемся через него к урлу, который парсим, и если страничка загрузилась быстро, и мы получили некий код страницы, который в футере, либо некое слово, которое там находится, то считаем прокси работоспособным, и сохраняем в текстовый файлик, затем из этого файлика будем брать наши проверенные прокси, для использования, НО! Как правильно подметили выше, прокси бесплатные, или дешевенькие, мрут очень быстро, в связи с чем есть необходимость проверять список наших прокси как можно чаще. К примеру раз в 5-10 минут прогонять скриптом все прокси. Что бы не тратить много времени на проверки, и при работе основного скрипта, на тормознутые прокси, выставляем лимиты работы функции. Если функция работает долго, значит прокси - тормоз, и тратить на него время(больше 3-5 секунд) больше смысла нет, можем переходить к следующему.
Прокси, к слову можно разделить на 4 вида:
Бесплатные - полная ерунда, на которую даже время тратить не стоит.
Дешевые - которые отдаются большим списком как правило, в несколько тысяч, и из них, при хорошем проксичекере, можно выжимать неплохой результат, но это что касается парсинга. Если у вас бот, который клацает по кнопкам, много яваскрипта, и прочей лабуды, которую не переносят дешевые прокси, лучше отказаться от их использования, в пользу проксей индивидуальных, которые не так уж и дороги.
Индивидуальные прокси, даются в одни руки. Стоят не дорого. Я покупаю
тут.
Такие прокси в свою очередь тоже делятся на ipv4, ipv6, и т.д., но какие вам нужны, уточните у поддержки. Они подскажут чем отличаются типы проксей этих.
Дорогие прокси - стоить могут по несколько сотен $, и мне вообще никогда не приходилось их использовать. Не знаю для чего они нужны. То ли их используют люди, которые не знают, что есть индивидуальные прокси подешевле, то ли для каких-то особых задач ими пользуются. Мне неведомо к сожалению.
Кстати если кому парсинг нужен будет - обращайтесь в
телеграмм.
Надеюсь админ за ссылки сильно не рассердится.