Задать вопрос
@9StarRu

Как получить содержимое body удалив все кроме h1, ul, li, p и img?

Необходимо получать контент со стороннего сайта, его содержимое из <body>...</body> при этом оставлять только контент в h1, ul, li, p, img и iframe youtube, vimeo.

Как это реализовать с помощью регулярного выражения или другим способом?

Помогите, пожалуйста.

p.s. сам контент, всю страницу я получаю в переменную $mycontent

$mycontent = preg_replace('/<body([^<>]*?)>(.+?)<\/body>/is', '$2', $mycontent);

Как очистить $2 от лишних тегов или выполнить то, что нужно по другому?
  • Вопрос задан
  • 151 просмотр
Подписаться 2 Простой Комментировать
Помогут разобраться в теме Все курсы
  • Skillfactory
    Профессия Fullstack веб-разработчик на JavaScript и PHP
    20 месяцев
    Далее
  • Хекслет
    PHP-разработчик
    10 месяцев
    Далее
  • Нетология
    Веб-разработчик с нуля: профессия с выбором специализации
    14 месяцев
    Далее
Пригласить эксперта
Ответы на вопрос 2
kimono
@kimono
Web developer
Можно попробовать:
$html = strip_tags($myContent, '<h1><ul><li><p><img><iframe>');
Ответ написан
Комментировать
proudmore
@proudmore
Построить DOM дерево и рекурсивно пройти по всем нодам в body.
Ответ написан
Комментировать
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы