@9StarRu

Как получить содержимое body удалив все кроме h1, ul, li, p и img?

Необходимо получать контент со стороннего сайта, его содержимое из <body>...</body> при этом оставлять только контент в h1, ul, li, p, img и iframe youtube, vimeo.

Как это реализовать с помощью регулярного выражения или другим способом?

Помогите, пожалуйста.

p.s. сам контент, всю страницу я получаю в переменную $mycontent

$mycontent = preg_replace('/<body([^<>]*?)>(.+?)<\/body>/is', '$2', $mycontent);

Как очистить $2 от лишних тегов или выполнить то, что нужно по другому?
  • Вопрос задан
  • 149 просмотров
Пригласить эксперта
Ответы на вопрос 2
kimono
@kimono
Web developer
Можно попробовать:
$html = strip_tags($myContent, '<h1><ul><li><p><img><iframe>');
Ответ написан
Комментировать
proudmore
@proudmore
Построить DOM дерево и рекурсивно пройти по всем нодам в body.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы