Проблема следующая, нужно парсить около 20 страниц ежедневно, доступ к контенту только при авторизации. Использовал playwright со всевозможными настройками скрывающими автоматизацию, но все без толку. Либо что то все же отображает автоматизацию браузера, либо же анализируется поведение пользователя, но так или иначе меня палят и аккаунты блокируют. Пришел к тому что буду вручную гулять по нужным страницам и собирать инфу, но опять же встал вопрос как сохранять код незаметно. Нажатие правой кнопки мыши и клавиш для сохранения также могут отслеживаться. Нужен абсолютно незаметный способ сохранения страниц.
DevMan, так я и собираюсь пользоваться их сервисом. Ты возможно не так понял мою проблему. Мне нужно гулять по страничкам одного сайта и сохранять код этих страниц для последующего парсинга, но у них не должно возникнуть и мысли о том что я его сохраняю.
DevMan, аналогичный вопрос к тебе. Ты вообще куда то мимо кассы дуешь. То что ты мне предлагаешь невероятно муторно, и настолько же бесполезно. По итогу у меня будет 20 акков, каждый из которых идентифицирован как "собирающий информацию". Специально для тебя в третий раз: мне нужно незаметно получить код страницы. Не должно существовать никакого признака что я мог скопировать или любым другим способом получить html.
Uuyyshte66, специально для тебя: получить страницу незаметно возможно только хаком.
с выкачкой всех данных. но это одноразовый экшен, если с той стороны не дурачки.
чисто технически и легально получить страницу незаметно – невозможно.
DevMan, ты все таки не понял. Я говорю тебе про парсинг. Под словом незаметно, я имею в виду что меня не посчитают человеком который парсит, в их глазах я хочу выглядеть обычным пользователем.
DevMan, на сайте стоит очень хорошая защита, судя по всему. Я ищу ультимативный способ обхода любого вида защиты, даже если мне вручную придется листать страницы.
DevMan, но какой смысл? Если я буду парсить, все аккаунты будут отмечены как парсящие. Мне это вообще ничего не дает, когда фундаментальная проблема заметности не решена.
DevMan, так я и спрашиваю как мне эти страницы получить? Классические способы с вебдрайверами пупитирами и прочим палятся, сохранение страницы через мышь и клавиатуру также палится. Расширения также палятся. Как их достать с кеша для обработки вообще не понятно.
Uuyyshte66, ты хочешь чтоб тебе тут на пальцах распедалили?
тема парсинга очень замороченная. и меняется от сайта к сайту.
где–то дефекты на куки и надо хранить сессию. где–то жаба–скрипт. где–то еще хитрее.
но я не знаю ни одного сайта, который бы блочил за парсинг 20 страниц. тем более при авторизации.
Uuyyshte66, просто потому что это – не незаметно для сервера. ее запросили и получили – это уже заметно.
дальше врубаются средства защиты.
универсального рецепта нет. надо разбирать каждый конкретный случай.
в своей практике я встречал трудности. но не встречал сайт, который бы нельзя было парсить.
Uuyyshte66, не может.
это происходит не на сайте/сервере, а уже на клиенте.
есть способы и это обойти. но твоей квалификации, сорян (вот вообще без обид), не хватит для этого..
Но ведь сайт может определить внедренный на их страницу код.
Может, но это уже другого уровня защита, которую можно относительно легко отследить по общению клиента с сервером. Обновил ответ, теперь страница будет сохраняться без нажатия клавишь.