Ребята проблема.
Нужно спарсить текст статьи на одном сайте, статья имеет следующую структуру html:
<div>
<p>Нужный текст</p>
<p>Нужный текст</p>
<aside>Ненужный элемент</aside>
Нужный текст
<p>Нужный текст</p>
<p>Нужный текст</p>
</div>
Использую python+lxml
Дело в том, что походу сайт криво сверстан, и нужный мне текст текст расположен без тега, но строго после тега aside.
Как мне отловить весь нужный текст?
Пробовал удалять ненужные ноды и парсить через xpath("//div//text()") но появляется все, кроме того который после тега aside.
Есть какие-то идеи?