Как можно в bash-е парсить html страницу?

Question

Андрей Стрелков @strelkov_av

Как можно в bash-е парсить html страницу?

Добрый день, подскажите пожалуйста, циклом перебираю список URL-ов содержимое которых (исходный код html) загружаю.
Задача такая, что нужно вытащить определенный кусок текста который находится в определенном контейнерем, например

<div class="text-container">
  <p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <aside>Не нужный контейнер</aside>
  <div>Снова не нужный контейнер</div>
  <p>Опять нужный параграф</p>
</div>

Т.е. на выходе нужно получить содержимое в контейнере text-container при этом только параграфы, т.е.

<p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <p>Опять нужный параграф</p>

Причём если внутри параграфа есть также различные иные контейнеры, то их исключать, также нужно почистить различные теги типа a, strong и т.п.

Другими словами, оставить только p и br, т.е. только текст, параграфы и переносы строк

Чем правильнее делать такой парсинг в bash?

Вопрос задан более трёх лет назад
2806 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Вот так, с помощью нехитрых приспособлений буханку белого (или черного) хлеба можно превратить в троллейбус… Но зачем?

Answer 1 · 2020-04-14 14:44:02

xotkot @xotkot

ответы это убийцы вопросов

pup

Ответ написан более трёх лет назад

Комментировать

Как можно в bash-е парсить html страницу?

Войдите на сайт