Приветствую
Тренируюсь на
кошках. С выдергиванием отдельных элементов со страницы все более или менее понятно, а вот с постобработкой сохраненного HTML кода — непонятно. Как его очищать от ненужных данных (ссылок, выделений, других тегов) я пока не понимаю. На ум приходят регулярные выражения и теоретически можно было бы ими воспользоваться, но
не советуют. Что делаю:
— Сохраняю Scrapy содержимое блока .mw-parser-output
Что непонятно:
— как удалить теги ссылок, выделений (жирный, курсив)
— как удалить блок содержания страницы
— как удалить все имеющие классы и идентификаторы
— как удалить целые блоки (примечания, литература, ссылки)
— в целом постобработка контента
Разумеется, можно было бы сразу при поиске элементов в Scrapy прописать:
//div[@class='mw-parser-output']/*[not(@class='toc' or @class='reflist not-references')]
исключили блок навигации и литературы
Но чую, что есть варианты гораздо правильней.
Поделитесь, пожалуйста, своими знаниями.