Как спарсить raw html страницы?

Question

BogBel @BogBel

Как спарсить raw html страницы?

Доброго времени суток , необходимо спарсить данные с сайта, почитал кучу доков, все они своядтся к отправке запроса и обработки данные респонса.
Например нашел такой вариант:

html = urllib2.urlopen( "http://www.google.com" ).read()
soup = BeautifulSoup( html )

Все славно, но я получаю не те данные которые хотел.
Например я открываю инспектором и вот я получаю вот эти данные:

а вместо них хотелось бы получить

Тоесть вопрос в том , что бы получить данные не с результата response обьекта, а прямо собрать содержание страницы.
Решение нашел для себя в этом:

from mechanize import Browser
from bs4 import BeautifulSoup
mech = Browser()
mech.set_handle_robots(False)
url = 'example.com'
page1 = mech.open(url)
html1 = page1.read()
soup1 = BeautifulSoup(html1)

Вопрос задан более трёх лет назад
468 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

2 комментария

Комментировать

4 комментария

BogBel @BogBel Автор вопроса

Есть способ понять от куда на сайт прилетают данные?

Написано более трёх лет назад
hdworker @hdworker

извините, не понял вопроса. что вы хотите понять?

Написано более трёх лет назад
BogBel @BogBel Автор вопроса

hdworker: ну что мне следует использовать pycurl or htmlunit?

Написано более трёх лет назад
hdworker @hdworker

htmlunit позволяет получать страницу такой, какой она отображается в браузере после выполнения всех скриптов.
pycurl это питон-интерфейс к curl, утилите позволяющей получать содержимое http-запроса (однако если на ней ajax-запросы, то они не выполняются).
таким образом, вы можете получить целевую страницу, сохранить её в виде файла (в случае htmlunit) и распарсить файл как вам необходимо.
напишите конкретней, что вам необходимо сделать. Если вам надо просто получить содержимое какого-то блока, для питона есть jquery-like либа,:
https://pypi.python.org/pypi/pyquery

Написано более трёх лет назад