Как получить текст за пределами тега при помощи xpath?

Question

FaNaT @fanat_96

C#
XPath

Как получить текст за пределами тега при помощи xpath?

Здравствуйте. Есть такой html-фрагмент

<article class="eText">
<p class="">
<b class="">Год:</b> 2019-2020 
<br class="">
<b class="">Жанр:</b> Приключения, фэнтези, мультсериал 
<br class="">
<b class="">Перевод / Озвучивание:</b> Многоголосый дубляж от Wakanim 
<br class="">
<b class="">Время:</b> 22 х ~ 00:24:00 
<br class="">
<b class="">Произведено:</b> Япония, CloverWorks 
<br class="">
<b class="">Режиссер:</b> Тосифуми Акай 
<br class="">
<b class="">Актеры:</b> Нобунага Симадзаки, Риэ Такахаси, Аяко Кавасуми, Кэнъити Судзумура, Маая Сакамото, Томокадзу Сэки, Ю Кобаяси, Такахиро Сакурай, Ю Асакава, Кана Уэда 
</p>
</article>

Запрос, который получился у меня, только доходит до нужного узла. А вот получить значение за пределами тега я не знаю как.
//article[@class='eText']/p/b[contains(.,'Жанр:')]

Мне нужно получить значения, идущие после закрывающих тегов b. Т.е. "2019-2020", "Многоголосый дубляж от Wakanim", "Тосифуми Акай" и все остальные.

Я, конечно, могу при помощи Substring извлечь подстроку после двоеточия и проблема будет решена, но мне стало интересно можно ли написать универсальный xpath-запрос, в котором будет меняться содержимое contains, чтобы получить эти текстовые значения.

Вопрос задан более трёх лет назад
648 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Разработчик игр на Unity

13 месяцев

Далее
Академия Эдюсон

Разработчик игр на Unity + ИИ

6 месяцев

Далее
Stepik

PRO C#. Профессия "Backend разработчик"

4 месяца

Далее

Решения вопроса 1

5 комментариев

Roman Fov @Roman-Fov

Вот пример когда ломается первый варик:
Xml

<article class="eText">
  <p class="">
    <b class="">Жанр:</b><b class="">Жававаапр:</b>Многоголосый дубляж от Wakanim 
    <b class="">Время:</b> 22 х ~ 00:24:00 
  </p>
</article>

XPath result:
Text='Многоголосый дубляж от Wakanim'

Написано более трёх лет назад

FaNaT @fanat_96 Автор вопроса

Спасибо большое, первый вариант работает. Второй почему-то не хочет - выкидывает ошибку, что указанный запрос"имеет недопустимый указатель (token)".

Вопроса два:
1)я правильно понимаю, ". = " - это то же самое, что и contains?
2)Есть смысл использовать более сложный запрос, если я 100% уверен, что html всегда будет такого вида, как у вас в "коротком ответе"? Т.е. пустого тега  не будет точно.

Написано более трёх лет назад
Roman Fov @Roman-Fov
1. Не совсем. Contains проверяет вхождение строки, а знак равенства её соответствие.
Есть xml:

<root> <elem>мошка</elem> <elem>кошка</elem> <elem>окрошка</elem> </root>

Xpath с контейнс используют обычно так:
/root/elem[contains(., 'ошка')]
Выдаст:
XPath result:

Element='<elem>мошка</elem>' Element='<elem>кошка</elem>' Element='<elem>окрошка</elem>'

А Xpath со знаком равенства так:
/root/elem[. = 'кошка']
Выдаст:

XPath result: Element='<elem>кошка</elem>'

2. Если есть уверенность, то можно использовать первый вариант. Он вполне рабочий. Второй прост о наболевшем)
Написано более трёх лет назад
FaNaT @fanat_96 Автор вопроса

Roman Fov, Благодарю, теперь все понятно)

Написано более трёх лет назад
FaNaT @fanat_96 Автор вопроса
Roman Fov, у меня к Вам снова вопрос))
Уже работая над другим сайтом столкнулся с похожей проблемой, о которой Вы писали. Там нет постоянного шаблона.
Для примера:

Аудио 1: Русский / AC3 / 2.0 / 48 kHz / 256 kbps - Dub Аудио 2: Русский / AC3 / 2.0 / 48 kHz / 224 kbps - MVO Аудио 3: Японский / E-AC3 / 2.0 / 48 kHz / 224 kbps 

и второй вариант

Аудио 1: Русский 44.1 KHz, 2 ch, AAC-LC, 192 kbps Аудио 2: Китайский 48.0 KHz, 2 ch, AC-3, 192 kbps 

И в каждом материале может быть свой вариант оформления. Мне нужно получить любую из строчек "Аудио" всю после двоеточия. Единственная закономерность, которую я заметил, это наличие тега
. Собственно, сейчас я по его позиции строку и обрезаю. Подскажите, пожалуйста, реально ли составить xpath-запрос, чтобы вытащить нужный текст?
Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

C#

+4 ещё

Сложный
Как сделать правильную перемотку видео в Flyleaf (wpf)?
- 3 подписчика
- 15 июн.
- 188 просмотров
1

ответ
C#

+1 ещё

Средний
Как передать изображение на принтер TSC?
- 1 подписчик
- 12 мая
- 131 просмотр
1

ответ
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 361 просмотр
1

ответ
MySQL

+2 ещё

Простой
Как исправить ошибку could not load file or assembly «System.Data.SqlClient»?
- 1 подписчик
- 06 мая
- 102 просмотра
1

ответ
C#

+2 ещё

Простой
Как заставить кнопки в ScrollView корректно перераспределять остальные элементы при анимации?
- 1 подписчик
- 10 апр.
- 99 просмотров
1

ответ
C#

Простой
Как прочесть без блокировок в многопоточном приложение 16 байт структурное значение?
- 1 подписчик
- 30 мар.
- 189 просмотров
1

ответ
C#

+1 ещё

Средний
Как убрать проблему, из-за которой карта не возвращается в руку?
- 1 подписчик
- 18 мар.
- 301 просмотр
1

ответ
C#

Средний
Как скачать видео из MAX с параметрами C# GET?
- 2 подписчика
- 14 мар.
- 398 просмотров
0

ответов
C#

+1 ещё

Простой
Как переопределить стиль WPF-компонентов из подключенной библиотеки?
- 1 подписчик
- 02 мар.
- 122 просмотра
1

ответ
C#

Средний
Как в JsonSerializer.Deserialize игнорировать ошибки десериализации битого json?
- 3 подписчика
- 29 янв.
- 277 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2020-09-04 00:26:35

можно ли написать универсальный xpath-запрос, в котором будет меняться содержимое contains, чтобы получить эти текстовые значения.

Короткий ответ

//article[@class='eText']/p/b[. = 'Жанр:']/following-sibling::text()[1]

Xml:

<article class="eText">
	<p class="">
		<b class="">Жанр:</b>вфывафыва
		<b class="">Время:</b> 22 х ~ 00:24:00 
	</p>
</article>

XPath result:
Text='вфывафыва'
-----------------------------------

Правильный ответ

//article[@class='eText']/p/b[text() = 'Жанр:'][generate-id(following-sibling::text()[1]/preceding-sibling::node()[1]) = generate-id(.)]/normalize-space(following-sibling::text()[1])

Xml:

<article class="eText">
	<p class="">
		<b class="">Жанр:</b><b class="">Жанр:</b>Многоголосый дубляж от Wakanim 
		<b class="">Время:</b> 22 х ~ 00:24:00 
	</p>
</article>

XPath result:
String='Многоголосый дубляж от Wakanim'
-----------------------------------
(Тип учитывать возможное пустое значение после тега . Незн насколько наглядно проиллюстрировал)

Если что не понятно, то спрашивайте

PS: Вопрос знатокам: реально ли упростить второй вариант без потери функционала?

Как получить текст за пределами тега при помощи xpath?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт