Как парсить (очищать/разбирать) HTML после граббинга?

Question

weranda @weranda

Как парсить (очищать/разбирать) HTML после граббинга?

Приветствую

Тренируюсь на кошках. С выдергиванием отдельных элементов со страницы все более или менее понятно, а вот с постобработкой сохраненного HTML кода — непонятно. Как его очищать от ненужных данных (ссылок, выделений, других тегов) я пока не понимаю. На ум приходят регулярные выражения и теоретически можно было бы ими воспользоваться, но не советуют.

Что делаю:
— Сохраняю Scrapy содержимое блока .mw-parser-output

Что непонятно:
— как удалить теги ссылок, выделений (жирный, курсив)
— как удалить блок содержания страницы
— как удалить все имеющие классы и идентификаторы
— как удалить целые блоки (примечания, литература, ссылки)
— в целом постобработка контента

Разумеется, можно было бы сразу при поиске элементов в Scrapy прописать:

//div[@class='mw-parser-output']/*[not(@class='toc' or @class='reflist not-references')]
исключили блок навигации и литературы

Но чую, что есть варианты гораздо правильней.
Поделитесь, пожалуйста, своими знаниями.

Вопрос задан более трёх лет назад
1118 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

6 комментариев

weranda @weranda Автор вопроса

Вопрос как раз в том, как очистить, а не не очищать.
Выдернул я первый абзац текста, а внутри ненужные ссылки и от них надо избавиться.

Написано более трёх лет назад
Владимир @vintello

weranda, ну так это простая работа с тестовым блоком. RexExp для этого идеален

Написано более трёх лет назад
weranda @weranda Автор вопроса

Владимир, а вот парень из приведенного мной примера со stackoverflow так делать не советует, но и примеров реализации не дает и его поддерживают тысячи и тысячи людей.

Написано более трёх лет назад
Владимир @vintello

weranda, я люблю делать ошибки. это же так хорошо дает понять почему это плохо или хорошо. и да, у меня всегда есть свой путь :)
поэтому парень может быть и хороший, но он говорит о парсинге HTML вообще. в вашем случае парсинг происходит с помощью scrapy а парсить Вы будете просто item в котором содержится текст.
так что все кошерно, можно пользоваться :)

Написано более трёх лет назад
weranda @weranda Автор вопроса

Владимир, В любом случае спасибо за помощь. С RegExp мне все понятно, но, сами понимаете, наверняка есть другие способы/библиотеки.

Написано более трёх лет назад
Владимир @vintello

weranda, самый короткий путь - тот который знаешь
это не я сказал, но помоему сказано очень правильно :)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 6 часов назад
- 51 просмотр
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 185 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 318 просмотров
1

ответ
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 2 подписчика
- 20 окт.
- 196 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 274 просмотра
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 169 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 646 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 142 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 153 просмотра
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 585 просмотров
2

ответа
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Answer 1 · 2018-12-19 10:18:23

никто не заморачивается с последующей очисткой :)
получил html и выдергивай оттуда то что тебе надо, структурируй и складывай в БД или другое место
scrapy построен также, у тебя есть прописанная конечная структура Items в которой описаны те данные, которые должны быть на выходе. и в процессе разбора html просто добавляешь нужные данные в эти Items. это все

Answer 2 · 2019-01-02 00:59:50

Правильный путь и есть конкретизация поиска, т.е отсеивание лишнего на этапе сбора данных а не после.

Как парсить (очищать/разбирать) HTML после граббинга?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт