Ответы пользователя по тегу Парсинг
  • Делаю граббер с помощью curl, практически всё работает. Но определенные ссылки не открывает?

    @Zanak
    Параметры разве не должны собираться с помощью "&"?
    Я бы еще посмотрел на эту функцию, для подготовки параметров перед отправкой.
    Ответ написан
    Комментировать
  • Как отследить скрытые post/get запросы?

    @Zanak
    Я бы присмотрелся к тому, что отдается и куда:
    - первое, что я начал бы искать в коде формы, это csrf токен, вставлять который сейчас считается правилом хорошего тона.
    - как формируется action формы, если зайти на страницу с отправкой сообщения и нажать "обновить". иногда целевой url формы имеет рандомный компонент, который тоже может использоваться как маркер.
    - можно ли перейти на страницу отправки сообщения по закладке в буркмарке. если можно, то следует проверить, сохраняются ли при этом сообщения после отправки. если нет, среди прочего, может проверятся и значение реферера
    - так же, я бы посмотрел, сколько полей, и скрытых и открытых есть в форме, и сколько их на самом деле передается.
    - иногда помогает заглянуть в localstorage и cookies.

    Если все это не помогло, то вам повезло встретить что-то интересное, вооружайтесь DevTools и начинайте изучать скрипты по порядку, кто грузится, в каком порядке, и что делает. Здесь хорошо помогает поиск имен js файлов в сети, чтобы отбить рассмотрение известных js пакетов.
    Ответ написан
    Комментировать
  • Как можно обходить защиты сайтов от ботов?

    @Zanak
    Задача в общем случае не имеет решения, конечно, если договорится с владельцем сайта - не вариант.
    Да, ты можешь на питоне научится подделывать заголовки запросов, распознавать капчу, можешь даже качественно строить в памяти dom и обрабатывать его js, загруженным со страниц целевого сайта, но это работает только в частных случаях. Как только появляется интерес не дать тебе утащить данные, сразу начинается гонка, один придумывает способы, как обламать халявщика, другой - как эти проверки обойти. Авита, как пример, много внимания уделила, а может и уделяет до сих пор, противостоянию с пауками, и, в моем случае, найденные решения жили от нескольких дней, до нескольких месяцев, а потом все равно отпадали.
    Если, все таки, желание не отпало, можно попробовать перестать прикидываться браузером и стать им на самом деле. Речь про написание плагинов, которые будут приглядывать за страницей и искать на ней нужные данные, собирая их в памяти на отдельной вкладке, или отправляя на твое api для сохранения. Можно попробовать поиграться со встраиванием браузера в твою программу, но я игрался только со встраиванием ишака в прогу на дельфях, да и то, очень давно.
    Ответ написан
    Комментировать