Как можно разбить контент страницы на заголовки и содержимое?

Question

Виталий @Seahunter

PHP

Как можно разбить контент страницы на заголовки и содержимое?

Здравствуйте, нужна помощь. Есть пост, в нём содержатся какие-то заголовки(h1-h6) и другой контент(различные другие теги). Можно ли как-то это разбить на на массив примерного вида:

<?php

$result = [
	'h1' => [
		'title' => 'First title',
		'content' => '<p>Hello world</p>'
	],
	'h2' => [
		'title' => 'Second title',
		'content' => '<p><a>Hello world 2</a></a>'
	]
];

Может быть это можно как-то через регулярку или через Dom Document. Ищу, но подходящего не могу найти решение или подсказки.

Вопрос задан более трёх лет назад
61 просмотр

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 86 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 204 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 456 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 248 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 191 просмотр
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2466 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 344 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 186 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Если пишете парсер под конкретный сайт, то вместо голого DOMDocument, лучше использовать обёртку с удобным интерфейсом.
Например, выбрать что-то из этого списка https://github.com/Imangazaliev/DiDOM/wiki/Compari...

Answer 1 · 2019-11-13 12:53:42

Пример, как регуляркой вытащить содержимое всех h* тегов
Но чтобы вытащить content, нужно уже смотреть на структуру страницы: где относительно заголовков расположен контент и тд. Это легко в случае если мы работаем с конкретным сайтом, то есть пишется код под сайт, и сложно если нужно некий универсальный парсер любых сайтов.

<?php
$html = file_get_contents('https://toster.ru');

$headers = [];
for($h = 1; $h <= 6; $h++)
{
    preg_match_all('!<h'.$h.'.*?>(.*?)</h'.$h.'!usi', $html, $out);
    if(isset($out[1]) && !empty($out[1]))
    {
        $headers["H".$h] = array_map('trim', $out[1]);
    }
}

print_r($headers);

Как можно разбить контент страницы на заголовки и содержимое?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт