Как можно в bash-е парсить html страницу?

Добрый день, подскажите пожалуйста, циклом перебираю список URL-ов содержимое которых (исходный код html) загружаю.
Задача такая, что нужно вытащить определенный кусок текста который находится в определенном контейнерем, например

<div class="text-container">
  <p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <aside>Не нужный контейнер</aside>
  <div>Снова не нужный контейнер</div>
  <p>Опять нужный параграф</p>
</div>


Т.е. на выходе нужно получить содержимое в контейнере text-container при этом только параграфы, т.е.

<p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <p>Опять нужный параграф</p>


Причём если внутри параграфа есть также различные иные контейнеры, то их исключать, также нужно почистить различные теги типа a, strong и т.п.

Другими словами, оставить только p и br, т.е. только текст, параграфы и переносы строк

Чем правильнее делать такой парсинг в bash?
  • Вопрос задан
  • 2602 просмотра
Пригласить эксперта
Ответы на вопрос 2
1. вариант wget curl + sed awk grep
2. учитывая что вы задаете такой простой вопрос возможно вам подойдет больше вот это
https://chrome.google.com/webstore/detail/web-scra...
Ответ написан
Комментировать
xotkot
@xotkot
хорошо есть и хорошо весьма
pup
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы