@tem12qaz

Как спарсить подобный сайт?

Требуется парсить определенный сайт.
Парсинг возможен только из под аккаунта.
Сайт может блокировать аккаунты на несколько часов, что и происходит примерно через 30 минут парсинга.
Сначала пробовал работать через api сайта. Логинился в селениуме, получал заголовки и делал запросы на нужную мне информацию. После делал полное повторение действий пользователя через селен. Также пробовал использовать selenium-stealth, но все безуспешно.

Сайт блокирует именно аккаунт, а не ip.
Заказчик сказал что все эти действия он проводит вручную через safari на iPhone в течении дня и не получает блокировки аккаунта (или получает но сильно реже).

Попробовал вбить в selenium-stealth данные safari на iphone. (user-agent, vendor, platform, webgl vendor, renderer)
Идея сразу была дурацкой, ведь это все таки хром, но я попробовал.
Естественно не вышло.

Пробовал разные паузы между запросами. От 5 секунд до 5 минут. Разницы практически не было

Так по какому принципу меня может блокировать этот сайт?
Можно ли попытаться выдать селениум хром за сафари на iPhone, и есть ли вообще в этом смысл?
  • Вопрос задан
  • 141 просмотр
Пригласить эксперта
Ответы на вопрос 2
fenrir1121
@fenrir1121
Начни с документации
Как спарсить подобный сайт?
Подобный чему?

Сайт может блокировать аккаунты на несколько часов, что и происходит примерно через 30 минут парсинга.
Что за операции, что вам не хватает 30 минут?

Сначала пробовал работать через api сайта.
Демонстрируйте код.

Логинился в селениуме, получал заголовки и делал запросы на нужную мне информацию
Так через api или селениум, вы определитесь.

Можно ли попытаться выдать селениум хром за сафари на iPhone, и есть ли вообще в этом смысл?
Вы сами пишите что парсинг возможен только из под аккаунта и блочится аккаунт. Очевидно сайту все равно сколько устройств вы имитируете, если аккаунт один и тот же.
Ответ написан
@rPman
Заказчик сказал что все эти действия он проводит вручную через safari на iPhone в течении дня и не получает блокировки аккаунта (или получает но сильно реже).
скорее всего сайт анализирует статистику действий пользователей, все нетипичные профили переносит в разряд - забанить если через пол часа не прекратит

если все остальные способы точно не являются причиной (разные ip и профили браузеров, там не только куки, слепком пользователя может являться наличие данных в кеше, или не полностью симулируется вызов api или к примеру совершается переход на страницу, на которую пользователь ну никак не смог бы перейти, кроме как вбить адрес или через отладочную консоль и т.п.) то будет грустно, поведенческий анализ самый 'надежный' в плане защиты от автоматизации и самый сложный в реализации.

Сначала нужно понять, в какой момент и по какой причине при ручной работе с сайтом происходит бан, без этого никуда, могу посоветовать собирать полную статистику своего поведения и делать множество попыток (посадить несколько человек на это дело и пусть они по разному работают с сайтом), затем, получив набор данных, искать кореляции, используя в качестве параметров - интервалы между операциями, разделив по группам (типам и действиям по сути самого сайта).

Существуют примеры, когда в качестве источника информации о поведении пользователя используются движения мыши, банально карту вероятности нахождения курсора, если есть тупые повторы действий добавив рандом, на ней будут красивые яркие дорожки, когда как пользователь более хаотичен
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы