Как достать текст из самого вложенного элемента html (lxml lib)?

Question

Алекcандр @walkaway

Python
lxml

Как достать текст из самого вложенного элемента html (lxml lib)?

Как достать текст из самого вложенного элемента, при условии что текст может быть обернут во сколько угодно тегов или не обернут вообще.
Пример:

<span class='ocr_line' id='line_1_1' title="bbox 386 252 1468 539; baseline -0.006 5; x_size 377.55554; x_descenders 94.388885; x_ascenders 94.388885"><span class='ocrx_word' id='word_1_1' title='bbox 386 252 1468 539; x_wconf 70' lang='en' dir='ltr'>ENGLISH</span> 
     </span>
     <span class='ocr_line' id='line_1_2' title="bbox 675 528 1498 760; baseline -0.002 -1.185; x_size 308; x_descenders 77; x_ascenders 77"><span class='ocrx_word' id='word_1_2' title='bbox 675 528 1498 760; x_wconf 88' lang='en' dir='ltr'><strong>CRAZY</strong></span> 
     </span>

Я пока делаю так:

tree = html.fromstring(HTMLstring)
    for line in tree.xpath('.//span[@class="ocr_line"]'):

        for item in line.xpath('.//span[@class="ocrx_word"]/text()'):

Вторую ноду не получаю вообще, как исправить?

Вопрос задан более трёх лет назад
391 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 209 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 551 просмотр
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 281 просмотр
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 509 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 345 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2017-03-19 11:34:23

если уверен, что текст только в итоговом вложенном

tree = html.fromstring(HTMLstring)
for line in tree.xpath('.//span[@class="ocr_line"]'):
    for item in line.xpath('.//text()'):
        print(item)

иначе - целься в текст

tree = html.fromstring(HTMLstring)
for line in tree.xpath('.//span[@class="ocr_line"]'):
    for item in line.xpath('.//text()[contains(.,"A")]'): # crAzy
        print(item)
    for item in line.xpath('.//text()[contains(.,"E")]'): # English
        print(item)

Как достать текст из самого вложенного элемента html (lxml lib)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт