Задать вопрос

Как можно в bash-е парсить html страницу?

Добрый день, подскажите пожалуйста, циклом перебираю список URL-ов содержимое которых (исходный код html) загружаю.
Задача такая, что нужно вытащить определенный кусок текста который находится в определенном контейнерем, например

<div class="text-container">
  <p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <aside>Не нужный контейнер</aside>
  <div>Снова не нужный контейнер</div>
  <p>Опять нужный параграф</p>
</div>


Т.е. на выходе нужно получить содержимое в контейнере text-container при этом только параграфы, т.е.

<p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <p>Опять нужный параграф</p>


Причём если внутри параграфа есть также различные иные контейнеры, то их исключать, также нужно почистить различные теги типа a, strong и т.п.

Другими словами, оставить только p и br, т.е. только текст, параграфы и переносы строк

Чем правильнее делать такой парсинг в bash?
  • Вопрос задан
  • 2806 просмотров
Подписаться 1 Простой 1 комментарий
Ответ пользователя xotkot К ответам на вопрос (2)
xotkot
@xotkot
ответы это убийцы вопросов
pup
Ответ написан
Комментировать