Задать вопрос
@whyman
Почемучка

Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?
  • Вопрос задан
  • 132 просмотра
Подписаться 1 Простой 1 комментарий
Решения вопроса 3
origami1024
@origami1024
went out for a night walk
Открою для тебя секрет, эти данные изначально есть на странице и их от тебя просто, сюрприз, скрывает браузер.
Ответ написан
taliano
@taliano
Cижу здесь потому что не хочу работать. That's it.
Через какой-нибудь api
Ответ написан
Комментировать
@rPman
Откройте вкладку в браузере, нажмите F12, выберите закладку networks, теперь вбейте адрес вашего сайта в адресную строку и нажмите enter - смотрите какие запросы идут, каждый можно изучить, какой у него URL (по правой кнопке можно получить готовую команду curl чтобы повторить его в скриптах), дальше подбирайте или имперически определяйте где в url или post запросах какие параметры и посдставляйте нужные.

Так работают аналитические парсеры, вам придется работать с исходными данными веб-приложения (не всегда это удобно) это не надежный способ (не всегда срабатывает) либо требует БОЛЬШЕ усилий разработчика, так же обычно такой метод проще обнаружить разработчику веб сайта и блокировать автоматически, но это самый эффективный по нагрузке на сеть и процессор.

Есть второй вариант, вы открываете браузер с установленным плагином для инжекта вашего javascript кода на страницу (или специализированную версию, они зовутся headless - без интерфейса, так же можно написать мини-приложение на основе webkit или того же майкрософтовской компоненты webbrowser в .net и работать со страницей прямо из вашего языка програмирования, но чаще javascript jquery удобнее на порядок) и получаете доступ к данным уже после того как страница загрузилась и код ее формирования отработал. Этот вариант самый универсальный и простой, не требует изучение кишков вебсайта и значительно проще при поддержке парсера в будущем, когда сайт изменится, и главное этот метод значительно сложнее обнаружить владельцу сайта, но значительно нагружает сетевой канал и процессор.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы