Варианты поиска текстовой ноды с вложенными inline-тегами?

Question

Александр Симонов @drumminman

Tehwriter, mountain biker, trailbuilder

Варианты поиска текстовой ноды с вложенными inline-тегами?

Всем доброго времени суток.
В общем, ситуация такая. Имеются исходники документации в DocBook XML 4.5, которые я сейчас переформатирую в DocBook 5.
И в старых исходниках периодически встречаются места, в которых текстовые ноды лежат в качестве прямых потомков узлов, которые в DocBook 5 уже не предполагают возможности такого расположения. Более того, при этом эта текстовая нода может еще содержать один или несколько inline-тегов.
К примеру:

<entry>
   <para>какой то параграф</para>
  <itemizedlist/>
   просто текст с каким то <sgmltag>инлайн-тегом</sgmltag>
</entry>

Соответственно, при переводе из старого формата в новый (есть там один скриптик), оксиген начинает сильно ругаться на подобные вещи.
Я пытаюсь отловить подобные ноды, но что то как то пока безуспешно
Текущий шаблон следующий (он еще заодно все потомки , которые не в параграфах, перемещает в para):

<xsl:template match="*[parent::entry]">        
        <xsl:choose>
           <xsl:when test="self::para">
               <xsl:copy>                
                   <xsl:copy-of select="@*"/>
                   <xsl:apply-templates/>                
               </xsl:copy>
           </xsl:when>
           <xsl:otherwise>
                       <para>
                           <xsl:copy>                
                               <xsl:copy-of select="@*"/>
                               <xsl:apply-templates/>                
                           </xsl:copy> 
                       </para>
           </xsl:otherwise>
       </xsl:choose> 
    </xsl:template>  

    <xsl:template match="text()[parent::entry]">
        <xsl:variable name="varTest">
            <xsl:value-of select="normalize-space(.)"/>
        </xsl:variable>
        <xsl:if test="$varTest != ''">
            <para>
                <xsl:copy-of select="normalize-space(.)"/>            
            </para>
        </xsl:if>        
    </xsl:template>

По итогу применения, эти два шаблона на выходе дадут XML вида:

<entry>
   <para>какой то параграф</para>
   <para><itemizedlist/></para>
   <para>просто текст с каким то </para><para><sgmltag>инлайн-тегом</sgmltag></para>
</entry>

Конечный вывод не радует, надо как то перенести всю строку вместе с sgmltag внутрь одного para, а как получить именно всю текстовую ноду + инлайн тег внутри нее, не понятно.

Руками просто это все править я умахаюсь, исходников сотни файлов, хотелось бы как то автоматизировать..

Вопрос задан более двух лет назад
68 просмотров

1 комментарий

Подписаться 5 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Учебный центр IBS

WEB-025_SELF Основы использования XML и XSD

1 неделя

Далее
Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Android-разработчик + ИИ

6 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

XSL & XSLT

Средний
Как извлечь только CDATA из элемента текст + CDATA + текст?
- 1 подписчик
- 09 мар.
- 80 просмотров
1

ответ
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек. 2025
- 310 просмотров
1

ответ
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб. 2025
- 240 просмотров
1

ответ
API

+1 ещё

Простой
Токены для сервисов отдачи отсутствуют в ЕИС?
- 1 подписчик
- более года назад
- 944 просмотра
1

ответ
XML

+1 ещё

Средний
Как исправить выход Image View за границы экрана в xml разметке?
- 1 подписчик
- более года назад
- 62 просмотра
1

ответ
Microsoft SQL Server

+1 ещё

Простой
Как создать XML определенного формата из таблицы с помощью FOR XML PATH?
- 2 подписчика
- более года назад
- 109 просмотров
0

ответов
PHP

+3 ещё

Простой
Как правильно использовать hreflang для мета тега и для карты сайта?
- 3 подписчика
- более года назад
- 712 просмотров
0

ответов
Joomla

+1 ещё

Средний
J2XML Joomla 5 как потом файл экспортированный редактировать?
- 1 подписчик
- более года назад
- 62 просмотра
0

ответов
Android

+2 ещё

Средний
Почему неудается открыть файл about.xml?
- 1 подписчик
- более года назад
- 129 просмотров
1

ответ
PHP

+2 ещё

Средний
Почему фид не открывается как xml?
- 1 подписчик
- более года назад
- 218 просмотров
1

ответ
Показать ещё Загружается…

Это Вы можете различить инлайн-тэг от остальных, а для стандарта xml это всего лишь очередной дочерний узел. Поэтому Вам придется как-то в xsl прописать все известные инлайн-тэги, чтобы они не обрабатывались, как тэги.

Answer 1 · 2025-06-14 16:53:33

В общем, спустя два года, на помощь пришел китайский ИИ. Совместными усилиями был рожден следующий способ:

<xsl:template match="entry">
    <xsl:copy>
        <xsl:copy-of select="@*"/>
        <xsl:for-each-group select="node()" 
            group-adjacent="boolean(
                self::para | 
                self::itemizedlist | 
                self::orderedlist | 
                self::variablelist |
                self::table |
                self::informaltable
            )">
            
            <xsl:choose>
                <!-- Группа блочных элементов -->
                <xsl:when test="current-grouping-key()">
                    <xsl:apply-templates select="current-group()"/>
                </xsl:when>
                
                <!-- Группа текста/инлайн-элементов - оборачиваем только если есть значимый контент -->
                <xsl:otherwise>
                    <xsl:variable name="group-content">
                        <xsl:apply-templates select="current-group()"/>
                    </xsl:variable>
                    
                    <xsl:if test="normalize-space($group-content) != ''">
                        <para>
                            <xsl:copy-of select="$group-content"/>
                        </para>
                    </xsl:if>
                </xsl:otherwise>
            </xsl:choose>
        </xsl:for-each-group>
    </xsl:copy>
</xsl:template>

где мы используем инструкции и функции xsl 2.0 for-each-group и group-content() для группировки. Т.к. у нас есть четкое деление на блочные элементы, и все остальное, то отделяем блочные от неблочных, и все непустые неблочные (к которым и относится голый текст либо инлайн-элементы) оборачиваем в нужный нам блочный элемент. Вроде работает.

Answer 2 · 2023-09-10 17:56:40

Ваша проблема - в невладении инструментом: как знающему Питон поверхностно (ну или не поверхностно), мне искренне непонятно, как с структурированным текстовым форматом можно не мочь что-то сделать?

Вы упоминаете Оксиген, видимо, это он
https://www.oxygenxml.com/xml_editor/xpath.html

ну, пробуйте им - Xpath в помощь
https://stackoverflow.com/questions/27017302/xpath...

для всего остального - Python + lxml

Варианты поиска текстовой ноды с вложенными inline-тегами?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт