Как спарсить sourse html через requests python?

Question

Андрей Пренрек @Frotryi

Живу не тужу

Python

Как спарсить sourse html через requests python?

Как мне указать requests чтобы он спарсил src?

<div class="basis__content mcont " id="mcont" data-canonical="https://vk.com/videos-203212944?z=video-203212944_456239017%2Fa4d98ed64a49e3b724"><div class="VideoPage Pad Pad_theme_gray"><div id="video-203212944_456239017"><div class="VideoPage__video"><video class="vv_inline_video" preload="none" controls="controls" poster="https://i.mycdn.me/getVideoPreview?id=1202888116844&idx=0&type=39&tkn=AsqvCq8Bbl3xIcQyovCatpauKiQ&fn=vid_x" controlsList="nodownload" oncontextmenu="event.preventDefault();event.stopPropagation();event.stopImmediatePropagation();return false;">
  <source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=1&amp;sig=EtkguPrP-Ks&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" /><source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=0&amp;sig=lbugRxrnkKQ&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" /><source src="https://vkvd28.mycdn.me/?srcIp=35.174.13.217&amp;expires=1616002264564&amp;srcAg=CHROME_ANDROID&amp;fromCache=1&amp;ms=185.226.52.159&amp;type=4&amp;sig=PPau_2ITXJA&amp;ct=0&amp;urls=45.136.21.174&amp;clientType=14&amp;appId=512000384397&amp;zs=43&amp;id=1202888116844" type="video/mp4" />
  <img src="https://i.mycdn.me/getVideoPreview?id=1202888116844&idx=0&type=39&tkn=AsqvCq8Bbl3xIcQyovCatpauKiQ&fn=vid_x" class="vv_img" alt="">

Вопрос задан более трёх лет назад
159 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

9 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 19 июл.
- 78 просмотров
1

ответ
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 91 просмотр
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 311 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 234 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 655 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 550 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 307 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 566 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 228 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 141 просмотр
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-03-12 13:11:27

requests + bs4
requests + lxml
На ваш вкус...

from lxml import etree
from io import StringIO
import requests

parser = etree.HTMLParser()
page = requests.get('https://URL.COM')

html = page.content.decode("utf-8")
tree = etree.parse(StringIO(html), parser=parser)

def get_links(tree):
    refs = tree.xpath("//*")
    links = [link.get('src', '') for link in refs]
    return [l for l in links if l.startswith('https://')]

links = get_links(tree)

['https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://vkvd28.mycdn.me/?srcIp=35.174.13.217&expir...', 'https://i.mycdn.me/getVideoPreview?id=120288811684...']

Как спарсить sourse html через requests python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт