Как сохранить страницу незаметно?

Question

Uuyyshte66 @Uuyyshte66

Парсинг

Как сохранить страницу незаметно?

Проблема следующая, нужно парсить около 20 страниц ежедневно, доступ к контенту только при авторизации. Использовал playwright со всевозможными настройками скрывающими автоматизацию, но все без толку. Либо что то все же отображает автоматизацию браузера, либо же анализируется поведение пользователя, но так или иначе меня палят и аккаунты блокируют. Пришел к тому что буду вручную гулять по нужным страницам и собирать инфу, но опять же встал вопрос как сохранять код незаметно. Нажатие правой кнопки мыши и клавиш для сохранения также могут отслеживаться. Нужен абсолютно незаметный способ сохранения страниц.

Вопрос задан 05 авг. 2024
192 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 2

18 комментариев

Uuyyshte66 @Uuyyshte66 Автор вопроса

Если б он продавался. Вариант с перехватом входящих файлов и построением страницы во втором браузере который не отсылает запросы также не сработает?

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, пфы. ты обратился к сервису – уже зафиксировано.
и пофигу что ты там мастрячишь.

технические варианты есть, но стоить будут дороже, чем связаться с сервисом и предложить покупать у них нужную инфо.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, так я и собираюсь пользоваться их сервисом. Ты возможно не так понял мою проблему. Мне нужно гулять по страничкам одного сайта и сохранять код этих страниц для последующего парсинга, но у них не должно возникнуть и мысли о том что я его сохраняю.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, я все правильно понял.
и предлагаю вместо огорода и парсинга предложить им покупать информацию напрямую.

не подходит?
берешь кучку клаудов. билдишь 20 вмок в различных регионах. заводишь на них 20 аккаунтов. на каждом парсишь одну страничку.

для экономии денег, можно сохранить пресеет, билдить перед парсингом, парсить, убивать билд. будешь за вмку платить час, а не сутки.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, так в этом то и вопрос. Как парсить незаметно. Если они могут отслеживать все мои действия на странице.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, читать умеешь?
при двадцати аках будет отслеживаться активность одного ака

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, аналогичный вопрос к тебе. Ты вообще куда то мимо кассы дуешь. То что ты мне предлагаешь невероятно муторно, и настолько же бесполезно. По итогу у меня будет 20 акков, каждый из которых идентифицирован как "собирающий информацию". Специально для тебя в третий раз: мне нужно незаметно получить код страницы. Не должно существовать никакого признака что я мог скопировать или любым другим способом получить html.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, специально для тебя: получить страницу незаметно возможно только хаком.
с выкачкой всех данных. но это одноразовый экшен, если с той стороны не дурачки.

чисто технически и легально получить страницу незаметно – невозможно.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, даже с разных айпи и браузеров, тебя спалят тупо на одной авторизации.
я не понимаю как это нельзя понять.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, ты все таки не понял. Я говорю тебе про парсинг. Под словом незаметно, я имею в виду что меня не посчитают человеком который парсит, в их глазах я хочу выглядеть обычным пользователем.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, на сайте стоит очень хорошая защита, судя по всему. Я ищу ультимативный способ обхода любого вида защиты, даже если мне вручную придется листать страницы.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, я все понял. и дал тебе готовый рецепт. ты просто не хочешь его слышать.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, но какой смысл? Если я буду парсить, все аккаунты будут отмечены как парсящие. Мне это вообще ничего не дает, когда фундаментальная проблема заметности не решена.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, чего ты будешь парсить?
у тебя акк – зашел и загрузил одну страницу как браузер. чего там детектить?

у меня такое ощущение что ты очень путаешь как страницы получаются компом.
считай по простому – открыл страницы в браузере == сохранил ее на компе.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, так я и спрашиваю как мне эти страницы получить? Классические способы с вебдрайверами пупитирами и прочим палятся, сохранение страницы через мышь и клавиатуру также палится. Расширения также палятся. Как их достать с кеша для обработки вообще не понятно.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, ты хочешь чтоб тебе тут на пальцах распедалили?
тема парсинга очень замороченная. и меняется от сайта к сайту.
где–то дефекты на куки и надо хранить сессию. где–то жаба–скрипт. где–то еще хитрее.

но я не знаю ни одного сайта, который бы блочил за парсинг 20 страниц. тем более при авторизации.

тебе на фриланс, дружище. сам не вытянешь.

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, почему вариант с wireshark не сработает, можешь объяснить?

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, просто потому что это – не незаметно для сервера. ее запросили и получили – это уже заметно.
дальше врубаются средства защиты.

универсального рецепта нет. надо разбирать каждый конкретный случай.
в своей практике я встречал трудности. но не встречал сайт, который бы нельзя было парсить.

Написано 05 авг. 2024

5 комментариев

Uuyyshte66 @Uuyyshte66 Автор вопроса

Но ведь сайт может определить внедренный на их страницу код.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66, не может.
это происходит не на сайте/сервере, а уже на клиенте.
есть способы и это обойти. но твоей квалификации, сорян (вот вообще без обид), не хватит для этого..

Написано 05 авг. 2024
Uuyyshte66 @Uuyyshte66 Автор вопроса

DevMan, насколько мне известно их скрипты могут определить что там изменилось и отправить серверу инфу об этом.

Написано 05 авг. 2024
DevMan @DevMan

Uuyyshte66,плохо тебе известно. это обходится.

Написано 05 авг. 2024
Михаил Р. @Mike_Ro

Uuyyshte66,

Но ведь сайт может определить внедренный на их страницу код.

Может, но это уже другого уровня защита, которую можно относительно легко отследить по общению клиента с сервером. Обновил ответ, теперь страница будет сохраняться без нажатия клавишь.

Написано 06 авг. 2024

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Эмуляция браузера в Docker в headless режиме для парсинга, какие есть варианты запустить полноценный браузер?
- 2 подписчика
- 9 часов назад
- 133 просмотра
0

ответов
Python

+1 ещё

Простой
В чем ошибка при парсинге на python?
- 1 подписчик
- вчера
- 149 просмотров
2

ответа
API

+1 ещё

Средний
Откуда брать информацию по лайв матчам Dota2 как у популярных сайтов?
- 3 подписчика
- 11 мар.
- 688 просмотров
0

ответов
Парсинг

Простой
Как парсить динамические сайты на python?
- 1 подписчик
- 08 мар.
- 159 просмотров
3

ответа
Python

+1 ещё

Средний
Как выполнить Olx парсинг номера?
- 3 подписчика
- 08 мар.
- 751 просмотр
2

ответа
Парсинг

+2 ещё

Простой
Способ обхода CloudFlare 2025?
- 3 подписчика
- 03 мар.
- 714 просмотров
2

ответа
WordPress

+1 ещё

Средний
Wordpress записи доступны только после ручного обновления?
- 1 подписчик
- 19 февр.
- 67 просмотров
1

ответ
Парсинг

Средний
Как выгрузить реестр арбитражных управляющих с почтой, телефоном и другими данными с сайта Росреестра?
- 1 подписчик
- 18 февр.
- 96 просмотров
1

ответ
Парсинг

+1 ещё

Средний
Как правильно обернуть undetected-chromedriver для парсинга?
- 2 подписчика
- 16 февр.
- 335 просмотров
0

ответов
Парсинг

Простой
Как спарсить сайт с авторизацией через смс?
- 1 подписчик
- 07 февр.
- 104 просмотра
3

ответа
Показать ещё Загружается…

Phyton разработчик

Товеко

До 60 000 ₽

Преподаватель курса по информационной безопасности

Eltex • Новосибирск

от 130 000 ₽

Веб-дизайнер + UX

TurboProject

от 50 000 ₽

Answer 1 · 2024-08-05 16:42:51

DevMan @DevMan

купи сервис. других способов нет, отслеживается все, что захочет его владелец.

Ответ написан 05 авг. 2024

18 комментариев

Answer 2 · 2024-08-05 17:39:16

Пришел к тому что буду вручную гулять по нужным страницам и собирать инфу, но опять же встал вопрос как сохранять код незаметно.

Teampermonkey + save page. Пример с сохранением страницы после ее загрузки и по таймеру:

// ==UserScript==
// @name         Super script
// @namespace    http://tampermonkey.net/
// @version      0.1
// @description  Super script description
// @author       Spamer
// @match        *://*/*
// @grant        none
// ==/UserScript==

(function() {
    function savePageAsHTML() {
        const htmlContent = document.documentElement.outerHTML;
        const blob = new Blob([htmlContent], {type: 'text/html'});
        const url = URL.createObjectURL(blob);
        const a = document.createElement('a');
        a.href = url;
        a.download = 'page.html';
        document.body.appendChild(a);
        a.click();
        document.body.removeChild(a);
        URL.revokeObjectURL(url);
    }

    // load
    window.addEventListener('load', () => {
        savePageAsHTML();
    });

    // load + timer
    window.addEventListener('load', () => {
        setTimeout(savePageAsHTML, 10000);
    });
})();

Как сохранить страницу незаметно?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт