• Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

    @rPman
    Откройте вкладку в браузере, нажмите F12, выберите закладку networks, теперь вбейте адрес вашего сайта в адресную строку и нажмите enter - смотрите какие запросы идут, каждый можно изучить, какой у него URL (по правой кнопке можно получить готовую команду curl чтобы повторить его в скриптах), дальше подбирайте или имперически определяйте где в url или post запросах какие параметры и посдставляйте нужные.

    Так работают аналитические парсеры, вам придется работать с исходными данными веб-приложения (не всегда это удобно) это не надежный способ (не всегда срабатывает) либо требует БОЛЬШЕ усилий разработчика, так же обычно такой метод проще обнаружить разработчику веб сайта и блокировать автоматически, но это самый эффективный по нагрузке на сеть и процессор.

    Есть второй вариант, вы открываете браузер с установленным плагином для инжекта вашего javascript кода на страницу (или специализированную версию, они зовутся headless - без интерфейса, так же можно написать мини-приложение на основе webkit или того же майкрософтовской компоненты webbrowser в .net и работать со страницей прямо из вашего языка програмирования, но чаще javascript jquery удобнее на порядок) и получаете доступ к данным уже после того как страница загрузилась и код ее формирования отработал. Этот вариант самый универсальный и простой, не требует изучение кишков вебсайта и значительно проще при поддержке парсера в будущем, когда сайт изменится, и главное этот метод значительно сложнее обнаружить владельцу сайта, но значительно нагружает сетевой канал и процессор.
    Ответ написан
    Комментировать
  • Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

    taliano
    @taliano
    Cижу здесь потому что не хочу работать. That's it.
    Через какой-нибудь api
    Ответ написан
    Комментировать
  • Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

    origami1024
    @origami1024
    went out for a night walk
    Открою для тебя секрет, эти данные изначально есть на странице и их от тебя просто, сюрприз, скрывает браузер.
    Ответ написан
    5 комментариев