Добрый день, подскажите пожалуйста, циклом перебираю список URL-ов содержимое которых (исходный код html) загружаю.
Задача такая, что нужно вытащить определенный кусок текста который находится в определенном контейнерем, например
<div class="text-container">
<p>Нужный некий параграф</p>
<p>Снова нужный некий параграф</p>
<aside>Не нужный контейнер</aside>
<div>Снова не нужный контейнер</div>
<p>Опять нужный параграф</p>
</div>
Т.е. на выходе нужно получить содержимое в контейнере text-container при этом только параграфы, т.е.
<p>Нужный некий параграф</p>
<p>Снова нужный некий параграф</p>
<p>Опять нужный параграф</p>
Причём если внутри параграфа есть также различные иные контейнеры, то их исключать, также нужно почистить различные теги типа
a, strong и т.п.
Другими словами, оставить только
p и
br, т.е. только текст, параграфы и переносы строк
Чем правильнее делать такой парсинг в bash?