Python Парсинг через прокси не работает?

Question

beginer123 @beginer123

Python

Python Парсинг через прокси не работает?

Есть такой код
Код парсит страницы через разные прокси, и сохраняет в файлик
proxy_list содерижт разные прокси
Проблема в том что парсится только треть все страниц
Если я отключу прокси то получаю 100% результат
В ходе выполнения часто возникают различные ошибки которые я перехватываю и повторяю парсинг с другим прокси
Но почему все равно данные теряются?
Где я ошибся?

def parse(url):
    valid_request = False
    while not valid_request:
        try:
            tree = get_page_tree(url, proxy_list[random.randint(0, 20)])
            valid_request = True
        except:
            valid_request = False
........
Далее идет парсинг объектов со страницы и сохранение в файл


def get_page_tree(url,proxy_obj):
    r = requests.get( url , timeout=10, proxies = proxy_obj )
    return html.fromstring(r.content)

Пробовал разное время отклики, разные прокси, но проблема в том что он в принципе не должен терять данные т.кя поставил try except

Вопрос задан более трёх лет назад
565 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

9 комментариев

beginer123 @beginer123 Автор вопроса

Да, то я правильно понимаю что проблема того что треть данных не парситься в том что код не вызывает исключения, а вершнувшийся контент не соответсвует тому что нужно?

Написано более трёх лет назад
antofa @antofa

кстати, может вы подскажете, как сейчас обстоят дела со скоростью у tor (вместо списка прокси)?

Написано более трёх лет назад
theg4sh @theg4sh

antofa: через прокси, сколько помню, всегда говеная скорость была, это редкость когда страница грузилась меньше 5s. На хабре или дочерних видел недавно статейку, где приводится сравнение в коментах о скорости закачки: в кратче, сейчас это примерно в два раза дольше, чем напрямую обращаться, имхо, по соотношению "полезные данные"/"гемморой реализации" Tor впереди. Опять же не стоит забывать, что Tor по всей видимости зависит от географического расположения и от страны использования.

Написано более трёх лет назад
theg4sh @theg4sh

beginer123: понятия не имею :) я ж не экстрасенс, чтобы знать что у вас приходит и приходит ли вообще - некоторые прокси могут отдавать пустой html, встречал такое.
Попробуйте перед парсингом привести html к строгому виду, аля прогон через xmllint, сделайте проверку контрольных элементов, чтобы понять, что страница действительна соответствует искомой.
Опять же проверьте сперва прокси на общедоступной странице (скорость, валидность, соответствие оригиналу) перед использованием.

Написано более трёх лет назад
theg4sh @theg4sh

antofa: вот здесь есть графики https://habrahabr.ru/company/eset/blog/310244/ в коментах по вашему вопросу.

Написано более трёх лет назад
antofa @antofa

theg4sh: мне tor как-раз таки и запомнился стабильностью, хоть и медленно работал (использовал для голосования с разных айпи), а реально рабочих списков прокси без проблем (бесплатных) я не встречал. В своих проектах парсинга тестил сколько максимально запросов может обработать ресурс до бана (таймаут 5 сек, например) и затем оставлял работать скрипт на 1-2 дня. В принципе скорость устраивала и меня, и заказчика.

Другой вопрос, как можно парсить гугл в 100-1000 потоков, он ведь люто банит/дает капчу за такое? В таком случае остается только использовать список прокси?

Написано более трёх лет назад
theg4sh @theg4sh

antofa: ай-йа-йай, подделка голосования :)
Вопрос антикапчи и прочего это вообще тема отдельного разговора.

Не стоит забывать, что конечная точка получения - один компьютер, есть техника идентификации компьютера через обычный скрипт, это если пользоваться полноценным браузером.

Так же не стоит забывать, что есть куки, есть ивенты на движение мыши, на клики и прочее, типа скрытых картинок, которые должны быть загружены у нормального пользователя.

Наверняка есть какие-то метки позволяющие понять каким методом был произведен запрос...

хмм, например: браузер через tor, на сайте ставится кука, при обработке дочерних запросов, те же картинки по идее, должны получаться с одного ip, логично? какова вероятность, что множество запросов c одной страницы через tor будут делаться с одного конечного ip? скорее всего будет стремиться к 0. Это признак и ответ на "использовать список прокси?".

По всем этим признакам можно оделить зерно от плевел, и на всякий случай показать капчу :)
Не знаю, не граббил гугл и "учите матчасть" - ведь в знании сила :^)

Написано более трёх лет назад
antofa @antofa

theg4sh: один из последователей медива? эх, знать бы куда копать и где эту матчасть найти..

Написано более трёх лет назад
theg4sh @theg4sh

antofa: скорее нет, чем да (отсылка к WCIII, я правильно понял?).
Сам ищу грааль, но пока перебиваюсь всякими стандартами RFC, спецификациями и прочими, порой нудными, листовками от сообществ разработчиков. Гугл, мой друг, гугл :)
Оффтоп: Развивайте образное мышление, оно в разы быстрее, чем словесное. Представление конечной цели сразу и целиком, дает возможность поделить ее на мелкие итерации и понять какие пробелы в знаниях стоит убирать.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- вчера
- 241 просмотр
2

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 155 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 252 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 158 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 597 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 130 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 147 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 558 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 149 просмотров
2

ответа
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2016-09-27 13:25:35

Для начала сделайте лог исключений:

except Exception as e:
  log_ex(e);
  valid_request = False;

Быть может Вы что-то да не учли.

Так же надо учесть, что прокси могут выдавать контент после 10s (так скорее всего и есть).
Большинство из забугорных proxy могут выдавать контент и после 60s, так что для начала отсейте долгие из списка. Кроме того, контент может быть подменен самой proxy в случае неудачи.

Попробуйте Tor наконец - ведь ваша цель сграббить контент сайта, который блокирует после n запросов в минуту?

Answer 2 · 2016-09-27 13:30:28

Некоторые прокси подменяют контент.
Поэтому я в таких случаях предварительно тестировал список прокси, прогоняя через них запрос страницы с заранее известным контентом. Если данные страницы при этом искажались, либо их вообще не получалось получить - такой прокси удалялся из списка.

Python Парсинг через прокси не работает?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт