Задать вопрос
@temkaaa

Вся сложность парсинга Авито. Как это сделать правильно?

Заинтересовала тема автоматизации и тестирования на Python. Начинал с азов: библиотека request, bs4, Selenium, ну и плавненько дошел до Playwright. Учусь в вузе на ML инженера, а автоматизация, парсинг, сбор данных - как приятное хобби) Однако так было не всегда..

Как только пришла идея зайти на Авито и спарсить хотя бы парочку обьявлений.. БУМ - блокировка, капча. Начал детальнее разбираться в вопросе и первое, на что я наткнулся - использование мобильных прокси с ручной ротацией. Крутая идея! Почему бы нет? Настроить небольшие таймауты, случайные скроллы - полная иллюзия человека - и готово.

Но и тут нет. Попробовал целых 2 прокси от разных сервисов, думал дело именно в них. (Скрины прилагаются, для гуру автоматизации)

6927224e5d8cd196195016.png 6927229fc791e175838903.png
Но без прокси (При интернете 80 мбит/с) - все работает отлично

А с прокси (Значительно меньше, до 5 мбит/с) сайт еле фурычит, не прогружается и зависает со страшнейшей силой. Вроде и нравится заниматься этим, но очень уж устал тыкаться в стену с одной и той же проблемой. Стоит купить мобильные прокси получше, или система еще хитрее? Дайте пожалуйста ваших советов! Как вы обходили блокировки и всю тяжесть парсинга столь укрепленного сайта?
  • Вопрос задан
  • 92 просмотра
Подписаться 1 Средний 6 комментариев
Помогут разобраться в теме Все курсы
  • OTUS
    iOS Developer
    12 месяцев
    Далее
  • Stepik
    Парсинг на Python для начинающих
    2 недели
    Далее
  • AndroidSprint
    Попробуйте себя в роли разработчика за 10 дней
    1 неделя
    Далее
Пригласить эксперта
Ответы на вопрос 1
Mike_Ro
@Mike_Ro
Python, JS, WordPress, SEO, Bots, Adversting
ну и плавненько дошел до Playwright

Правильно, на нем и оставайтесь.
использование мобильных прокси с ручной ротацией

Мобильные и резиденские прокси - это на данный момент вариант с наибольшим доверием, со стороны анти-бот систем.
А с прокси (Значительно меньше, до 5 мбит/с) сайт еле фурычит, не прогружается и зависает со страшнейшей силой.

В мобильных фермах стоят обычные свистки, размещены друг на друге, без нормальной антенны, поэтому скорость минимальная. Ну и про оверселлинг не забываем.
Стоит купить мобильные прокси получше, или система еще хитрее?

Только методом тыка вы сможете найти нормальный прокси, либо свою ферму делать.
Дайте пожалуйста ваших советов! Как вы обходили блокировки и всю тяжесть парсинга столь укрепленного сайта?

Во первых, это коммерческий секрет. Во вторых, у крупных сервисов либо сторонняя компания осуществляет анти-бот защиту, либо имеется свой отдел защиты, люди там давно воюют с ботами и имеют приличный опыт. В третьих, преодоление защиты это отдельное направление в программирование, которое занимает годы на обучение. Рекомендую почитать Как анти-бот системы определяют ботов и как от них защищаться? . В четвёртых, профессионалы используют кастомный playwright (или cdp аналог), кастомный браузер, кастомную прокси ферму, кастомные паттерны поведения человека.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы