@Frotryi
Живу не тужу

Как спарсить sourse html через requests python?

Как мне указать requests чтобы он спарсил src?
<div class="basis__content mcont " id="mcont" data-canonical="https://vk.com/videos-203212944?z=video-203212944_456239017%2Fa4d98ed64a49e3b724"><div class="VideoPage Pad Pad_theme_gray"><div id="video-203212944_456239017"><div class="VideoPage__video"><video class="vv_inline_video" preload="none" controls="controls" poster="https://i.mycdn.me/getVideoPreview?id=1202888116844&idx=0&type=39&tkn=AsqvCq8Bbl3xIcQyovCatpauKiQ&fn=vid_x" controlsList="nodownload" oncontextmenu="event.preventDefault();event.stopPropagation();event.stopImmediatePropagation();return false;">
  <source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=1&amp;sig=EtkguPrP-Ks&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" /><source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=0&amp;sig=lbugRxrnkKQ&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" /><source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=4&amp;sig=PPau_2ITXJA&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" />
  <img src="https://i.mycdn.me/getVideoPreview?id=1202888116844&idx=0&type=39&tkn=AsqvCq8Bbl3xIcQyovCatpauKiQ&fn=vid_x" class="vv_img" alt="">
  • Вопрос задан
  • 143 просмотра
Пригласить эксперта
Ответы на вопрос 1
@GeneD88
QA
requests + bs4
requests + lxml

На ваш вкус...

from lxml import etree
from io import StringIO
import requests

parser = etree.HTMLParser()
page = requests.get('https://URL.COM')

html = page.content.decode("utf-8")
tree = etree.parse(StringIO(html), parser=parser)

def get_links(tree):
    refs = tree.xpath("//*")
    links = [link.get('src', '') for link in refs]
    return [l for l in links if l.startswith('https://')]

links = get_links(tree)

['https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://i.mycdn.me/getVideoPreview?id=120288811684...']
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы