@Kirill_Kirillov
Начинающий web-developer

Есть парсер новостного сайта. Он сибирает статьи, но как сделать так, чтоб он не собрал ненужные абзацы?

Есть парсер, он проходит по навигационной странице, собирает урлы, переходит по урлам и копирует новостные статьи. Вся проблема в том, что в статьях есть теги , которые также парсятся, но они мне не нужны. Каким образом это можно обойти. У ненужного тега есть класс "insert", однако метод strip() не помогает, он убирает все теги .
  • Вопрос задан
  • 240 просмотров
Пригласить эксперта
Ответы на вопрос 1
Вам нужны или регулярки или dom crawler. Ищите ненужный тег и убираете его вместе с содержимым.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы