Задать вопрос

Как спарсить raw html страницы?

Доброго времени суток , необходимо спарсить данные с сайта, почитал кучу доков, все они своядтся к отправке запроса и обработки данные респонса.
Например нашел такой вариант:
html = urllib2.urlopen( "http://www.google.com" ).read()
soup = BeautifulSoup( html )

Все славно, но я получаю не те данные которые хотел.
Например я открываю инспектором и вот я получаю вот эти данные:
1dc14e9d989b4aef96d45daa11e6fcf6.JPG
а вместо них хотелось бы получить
62782b4f6a8c4b71988d406e230d33c3.JPG
Тоесть вопрос в том , что бы получить данные не с результата response обьекта, а прямо собрать содержание страницы.
Решение нашел для себя в этом:
from mechanize import Browser
from bs4 import BeautifulSoup
mech = Browser()
mech.set_handle_robots(False)
url = 'example.com'
page1 = mech.open(url)
html1 = page1.read()
soup1 = BeautifulSoup(html1)
  • Вопрос задан
  • 442 просмотра
Подписаться 3 Оценить Комментировать
Пригласить эксперта
Ответы на вопрос 3
@deliro
Это, как раз, обработанные данные, а raw тебе приходит с urlib.
Используй selenium (окно браузера можно скрыть, используя PhantomJS).
Ответ написан
@nirvimel
Ответ написан
Комментировать
@hdworker
Для страниц генерируемых на сервере pycurl
Для ajax-страниц, запрашивающих инфу с сервера HtmlUnit
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы