Как можно в bash-е парсить html страницу?

Question

Андрей Стрелков @strelkov_av

Как можно в bash-е парсить html страницу?

Добрый день, подскажите пожалуйста, циклом перебираю список URL-ов содержимое которых (исходный код html) загружаю.
Задача такая, что нужно вытащить определенный кусок текста который находится в определенном контейнерем, например

<div class="text-container">
  <p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <aside>Не нужный контейнер</aside>
  <div>Снова не нужный контейнер</div>
  <p>Опять нужный параграф</p>
</div>

Т.е. на выходе нужно получить содержимое в контейнере text-container при этом только параграфы, т.е.

<p>Нужный некий параграф</p>
  <p>Снова нужный некий параграф</p>
  <p>Опять нужный параграф</p>

Причём если внутри параграфа есть также различные иные контейнеры, то их исключать, также нужно почистить различные теги типа a, strong и т.п.

Другими словами, оставить только p и br, т.е. только текст, параграфы и переносы строк

Чем правильнее делать такой парсинг в bash?

Вопрос задан более трёх лет назад
2887 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Stepik

Парсинг на Python для начинающих

2 недели

Далее
Skillfactory

Профессия Python-разработчик PRO

12 месяцев

Далее
Хекслет

Фронтенд-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Простой
Видит ли администрация сайта сканирование,и можно ли скрыть?
- 1 подписчик
- 07 дек.
- 393 просмотра
2

ответа
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 276 просмотров
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 1 подписчик
- 20 нояб.
- 576 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 406 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 209 просмотров
0

ответов
Парсинг

Простой
Как получить ID всех ПВЗ?
- 1 подписчик
- 24 сент.
- 285 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Как увеличить охват поисковых фраз Wildberries и ускорить?
- 2 подписчика
- 23 сент.
- 208 просмотров
0

ответов
Парсинг

Простой
Как парсить несколько сайтов, отличающихся друг от друга?
- 2 подписчика
- 09 сент.
- 213 просмотров
3

ответа
Node.js

+4 ещё

Простой
В чем разница между selenium, playwright и puppeteer?
- 3 подписчика
- 09 сент.
- 308 просмотров
2

ответа
Node.js

+1 ещё

Простой
NODE.JS – парсинг контента. При скачивании изображений получаю битые файлы. Как поправить?
- 1 подписчик
- 08 сент.
- 141 просмотр
1

ответ
Показать ещё Загружается…

C++ / Qt Разработчик

Алабуга • Екатеринбург

от 127 500 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Node.js backend разработчик (Middle+/Senior)

DataLouna

от 250 000 до 350 000 ₽

Вот так, с помощью нехитрых приспособлений буханку белого (или черного) хлеба можно превратить в троллейбус… Но зачем?

Answer 1 · 2020-04-13 21:30:34

1. вариант wget curl + sed awk grep
2. учитывая что вы задаете такой простой вопрос возможно вам подойдет больше вот это
https://chrome.google.com/webstore/detail/web-scra...

Answer 2 · 2020-04-14 14:44:02

xotkot @xotkot

хорошо есть и хорошо весьма

pup

Ответ написан более трёх лет назад

Комментировать

Как можно в bash-е парсить html страницу?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт