Как получить данные из HTML тега с помощью Python?

Question

Issue @paulenot

IT Issue

Python

Как получить данные из HTML тега с помощью Python?

Здравствуйте! Интересует, как можно простым способом получить данные от тега по адресу URL? В интернете много инструкций сложных для понимания. Хотелось бы без лишнего понять что импортировать, и как получить данные от тега по ID или Class и вывести значение с помощью print()

Вопрос задан более трёх лет назад
1556 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Решения вопроса 1

8 комментариев

Issue @paulenot Автор вопроса

А какую функцию использовать, что бы получить разметку по URL в переменную html?

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Issue, я же привел часть кода

Написано более трёх лет назад
Issue @paulenot Автор вопроса

Владимир Куц, Благодарю!

Написано более трёх лет назад

Issue @paulenot Автор вопроса

Владимир Куц,

#!/usr/bin/env python
def load(url, typ, val):
    from lxml import etree
    import requests
    response = requests.get(str(url))
    html = response.text
    root = etree.fromstring(html)
    sets = './/*[@' + typ + '="' + val + '"]'
    return root.xpath(sets)[0].text
    

url = "https://qna.habr.com/"
typ = "class"
val = "service-description"
load(url, typ, val)

Вывод всегда подобного рода:

usr@Inspiron-5749:~/Development/Python$ python lxml-parser.py 
Traceback (most recent call last):
  File "lxml-parser.py", line 15, in <module>
    load(url, typ, val)
  File "lxml-parser.py", line 7, in load
    root = etree.fromstring(html)
  File "src/lxml/etree.pyx", line 3235, in lxml.etree.fromstring
  File "src/lxml/parser.pxi", line 1876, in lxml.etree._parseMemoryDocument
  File "src/lxml/parser.pxi", line 1757, in lxml.etree._parseDoc
  File "src/lxml/parser.pxi", line 1068, in lxml.etree._BaseParser._parseUnicodeDoc
  File "src/lxml/parser.pxi", line 601, in lxml.etree._ParserContext._handleParseResultDoc
  File "src/lxml/parser.pxi", line 711, in lxml.etree._handleParseResult
  File "src/lxml/parser.pxi", line 640, in lxml.etree._raiseParseError
  File "<string>", line 5
lxml.etree.XMLSyntaxError: Entity 'mdash' not defined, line 5, column 34

Написано более трёх лет назад

Владимир Куц @fox_12 Куратор тега Python

Issue, немного видоизменю ваш код:

import io
import requests
from lxml import etree

url = "https://qna.habr.com/"
typ = "class"
val = "service-description"

def load(url: str, typ: str, val: str) -> str:
    parser = etree.HTMLParser()

    html = requests.get(url).text

    root = etree.parse(io.StringIO(html), parser)
    sets = f'.//*[@{typ}="{val}"]'
    return root.xpath(sets)[0].text

print(load(url, typ, val))

Написано более трёх лет назад

Issue @paulenot Автор вопроса

Владимир Куц, У меня почему то в терминал выводит всю страницу

Написано более трёх лет назад
Владимир Куц @fox_12 Куратор тега Python

Issue, слегка поправил скрипт

Написано более трёх лет назад

Issue @paulenot Автор вопроса

Владимир Куц, Благодарю за помощь, так работает:

#!/usr/bin/env python3
import requests, io
from lxml import etree as e
u = 'https://qna.habr.com/q/713045?e=8590853#comment_2122051'
t = 'class'
v = 'question__title'

def l(u: str, t: str, v: str) -> str:
    p = e.HTMLParser()
    h = requests.get(u).text
    r = e.parse(io.StringIO(h), p)
    return r.xpath(f'.//*[@{t}="{v}"]')[0].text

print(l(u, t, v))

Нашел и вывел:Как получить данные из HTML тега с помощью Python?

Не нашел и вывел(как заменить на 0?):

usr@Inspiron-5749:~/Development/Python$ ./lxml-parser.py 
Traceback (most recent call last):
  File "./lxml-parser.py", line 14, in <module>
    print(l(u, t, v))
  File "./lxml-parser.py", line 12, in l
    return r.xpath(f'.//*[@{t}="{v}"]')[0].text
IndexError: list index out of range

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Чтобы сделать несколько запросов к OpenAI серверу из Python, нужно каждый раз вызывать client.chat.completions.create?
- 1 подписчик
- вчера
- 75 просмотров
2

ответа
Python

Простой
Какой отлдачик для Python поставить новичку?
- 1 подписчик
- 20 дек.
- 117 просмотров
2

ответа
Python

Простой
Существует ли менеджер виртуальных окружений для python, который хранит все пакеты в одном месте?
- 3 подписчика
- 18 дек.
- 187 просмотров
1

ответ
Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 16 дек.
- 218 просмотров
1

ответ
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- 16 дек.
- 75 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- 15 дек.
- 198 просмотров
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 228 просмотров
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 141 просмотр
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 247 просмотров
0

ответов
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 239 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Backend Developer

Hard Bootstrapping LLC. • Санкт-Петербург

от 175 000 до 350 000 ₽

Answer 1 · 2020-02-11 21:16:35

from lxml import etree

html  = '<html><body><p id="test">data</p></body></html>'
root = etree.fromstring(html)

print(root.xpath('.//*[@id="test"]')[0].text)

> data

Получить содержимое html для парсинга можно примерно так:

import requests

response = requests.get('http://ya.ru')
html = response.text

Answer 2 · 2020-02-11 21:17:34

0ralo @0ralo

Python backend developer

BS

Ответ написан более трёх лет назад

1 комментарий

Как получить данные из HTML тега с помощью Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт