Как парсить html страницы и его обрабатывать?

Question

catana666 @catana666

Как парсить html страницы и его обрабатывать?

Есть страница в вк vk.com/go_in_zp?z=photo-50824015_344878304%2Falbum... необходимо спарсит html и найти спарсить ссылку cs624016.vk.me/v624016533/a226/owG51bJm59o.jpg .Подскажите код на с++ или питоне ,если не трудно

Вопрос задан более трёх лет назад
13308 просмотров

Комментировать

Подписаться 7 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Frontend-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Инженер по тестированию + ИИ

6 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

Комментировать

7 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Сложный
Как решить задачу на 3D DP?
- 1 подписчик
- 2 часа назад
- 47 просмотров
2

ответа
Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 81 просмотр
1

ответ
C++

Простой
Нарушается ли тут strict aliasing rule?
- 1 подписчик
- 19 июл.
- 48 просмотров
1

ответ
C++

Простой
Безопасно ли преобразование reinterpret_cast из указателя в массив?
- 1 подписчик
- 18 июл.
- 51 просмотр
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 93 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 321 просмотр
0

ответов
C++

Простой
Как сделать скриншот второго монитора на С++?
- 1 подписчик
- 14 июл.
- 127 просмотров
4

ответа
C++

Простой
Возможно ли сделать скрин действующего окна через Alt + PrtSc на С++?
- 1 подписчик
- 08 июл.
- 138 просмотров
2

ответа
C++

Простой
Как можно через ООП сериализировать в разные форматы в едином стиле?
- 2 подписчика
- 07 июл.
- 108 просмотров
3

ответа
C++

+1 ещё

Простой
Почему компилятор подчёркивает импортируемый класс как ошибку «индификатор не определён»?
- 1 подписчик
- 04 июл.
- 119 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-10-30 21:03:25

Andrey K @mututunus

Backend developer (Python, Golang)

$ pip install lxml

import urllib2
from lxml import html

data = urllib2.urlopen(url).read()
h = html.fromstring(data)
h.cssselect('.mv_actions a')[0].attrib['href']

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-10-30 21:08:43

Держите отвратительный, кривой, но работающий код на python:

from selenium import webdriver
import time
browser = webdriver.Firefox()
url='http://vk.com/go_in_zp?z=photo-50824015_344878304%2Falbum-50824015_00%2Frev'
browser.get(url)
time.sleep(5) # this is bad
img=browser.find_element_by_xpath('//a[@id="pv_photo"]/img')
print img.get_attribute('src')
browser.quit()

вывод:

http://cs624016.vk.me/v624016533/a226/owG51bJm59o.jpg

Как этот код можно изменить:
1) строку time.sleep(5) заменить на проверку нахождения элемента (ждем секунду, проверяем наличие элемента, если его нет, увеличиваем счетчик и продолжаем; при достижении счетчиком максимального значения - таймаут)
2) заменить selenium на phantom.js (чтобы окно фаерфокса не появлялось)
3) понять, что происходит при загрузке страницы браузером и имитировать это поведение при помощи requests.
Третий путь, на мой взгляд, самый трудозатратный и самый многообещающий (в смысле скорости решения).

UPD:
решение при помощи requests:

import requests
from lxml.html import fromstring
url='http://vk.com/go_in_zp?z=photo-50824015_344878304%2Falbum-50824015_00%2Frev'
search_string=url[url.find('photo-')+len('photo-'):url.find('%2F')]
r=requests.get(url)
doc=fromstring(r.text)
xpath='//a[contains(@onclick, "%s")]/img' % search_string
print doc.xpath(xpath)[0].attrib['src']

Answer 3 · 2014-10-30 21:08:34

Trrrrr @Trrrrr

Проще всего использовать QTWebKit: https://qt-project.org/doc/qt-5/qwebframe.html#fin...

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2014-10-31 08:28:59

Самый легкий в этом плане для освоения именно для новичка - grab (https://pypi.python.org/pypi/grab/0.4.13 )
Берешь firefox+firebug, смотришь исходный код страницы и ищещь нужный кусок. В firebug вытаскиваешь его xpath, потом можно сделать вот так (python 3):

from grab import Grab
g = Grab()
sample_url = 'some_url'
xpath_part= 'some_xpath'
resp =  g.go(sample_url).body
result = resp.xpath(some_xpath).text()
print(result)

Как парсить html страницы и его обрабатывать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт