Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

Question

Why Man @whyman

Почемучка

Парсинг

Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

Вопрос задан более трёх лет назад
135 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Решения вопроса 3

5 комментариев

Lillipup @Lillipup

Мб он про ajax

Написано более трёх лет назад
origami1024 @origami1024

Зря секрет раскрыл тогда(

Написано более трёх лет назад
Why Man @whyman Автор вопроса

Lillipup, да, скорее про это. Что мне, обычному пользователю, страница генерируется в том виде, в каком я могу её запросить через интерфейс сайта или типа того. А если написать какой-то особый запрос, то тогда мне вернётся, допустим, информация и нужные мне значения. И тогда, получается, наверное, нужно знать структуру запроса, какие-нибудь id объектов, состояние которых я хочу проверить, и написать программу, которая может такие запросы отправлять. Это то, как мне представляется этот процесс, как человеку без опыта в веб-программировании.

А если я начну изучать Javascript, я узнаю ответ на свой вопрос?

Написано более трёх лет назад
origami1024 @origami1024

Любые важные скрытые данные будут под паролем.

Главное тебе узнать пароль и систему шифрования, javascript - десятостепенные по необходимости знания, в этом вопросе.

Написано более трёх лет назад
rPman @rPman

Why Man,
А если я начну изучать Javascript, я узнаю ответ на свой вопрос?
изучайте, тогда вы сможете ПОНЯТЬ ОТВЕТ на ваш вопрос

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 395 просмотров
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 283 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 596 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 409 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 211 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 285 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 209 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 213 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 309 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Answer 1 · 2019-08-31 21:37:55

Открою для тебя секрет, эти данные изначально есть на странице и их от тебя просто, сюрприз, скрывает браузер.

Answer 2 · 2019-08-31 21:41:34

taliano @taliano

Cижу здесь потому что не хочу работать. That's it.

Через какой-нибудь api

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2019-08-31 21:49:07

Откройте вкладку в браузере, нажмите F12, выберите закладку networks, теперь вбейте адрес вашего сайта в адресную строку и нажмите enter - смотрите какие запросы идут, каждый можно изучить, какой у него URL (по правой кнопке можно получить готовую команду curl чтобы повторить его в скриптах), дальше подбирайте или имперически определяйте где в url или post запросах какие параметры и посдставляйте нужные.

Так работают аналитические парсеры, вам придется работать с исходными данными веб-приложения (не всегда это удобно) это не надежный способ (не всегда срабатывает) либо требует БОЛЬШЕ усилий разработчика, так же обычно такой метод проще обнаружить разработчику веб сайта и блокировать автоматически, но это самый эффективный по нагрузке на сеть и процессор.

Есть второй вариант, вы открываете браузер с установленным плагином для инжекта вашего javascript кода на страницу (или специализированную версию, они зовутся headless - без интерфейса, так же можно написать мини-приложение на основе webkit или того же майкрософтовской компоненты webbrowser в .net и работать со страницей прямо из вашего языка програмирования, но чаще javascript jquery удобнее на порядок) и получаете доступ к данным уже после того как страница загрузилась и код ее формирования отработал. Этот вариант самый универсальный и простой, не требует изучение кишков вебсайта и значительно проще при поддержке парсера в будущем, когда сайт изменится, и главное этот метод значительно сложнее обнаружить владельцу сайта, но значительно нагружает сетевой канал и процессор.

Как работают программы, умеющие брать с сайта данные, которые ещё не отображены на веб-страницах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт