Как расставить контент после парсинга?

Question

Александр @MirDj

PHP

Как расставить контент после парсинга?

Здравствуйте уважаемые программисты. Решил я себе написать парсер статей из VK для сайта.
По урлу, допустим Этому, скачиваю страницу:

$res = array();
             $options = array(
             CURLOPT_RETURNTRANSFER => true,     // return web page
             CURLOPT_HEADER         => false,    // do not return headers
             CURLOPT_FOLLOWLOCATION => true,     // follow redirects
             CURLOPT_USERAGENT      => "spider", // who am i
             CURLOPT_AUTOREFERER    => true,     // set referer on redirect
             CURLOPT_CONNECTTIMEOUT => 120,      // timeout on connect
             CURLOPT_TIMEOUT        => 120,      // timeout on response
             CURLOPT_MAXREDIRS      => 10,       // stop after 10 redirects
             );
             $ch      = curl_init( $_POST['Url'] );
             curl_setopt_array( $ch, $options );
             $content = curl_exec( $ch );
             $err     = curl_errno( $ch );
             $errmsg  = curl_error( $ch );
             $header  = curl_getinfo( $ch );
             curl_close( $ch );

             $res['content'] = $content;

Далее я начинаю перебирать контент:

# Получаем список ссылок на изображения в статье
              preg_match_all('/&quot;(.*)&quot;:\[&quot;(.*)&quot;,[0-9]{3},[0-9]{3}\]/S', $res['content'], $retData);
              # Получаем текст из статьи, если он есть
              preg_match_all('/<p  class="article_decoration_first article_decoration_last" >(.*)<\/p>/S', $res['content'], $retText);
              preg_match_all('/<p  class="article_decoration_first" >(.*)<\/p>/S', $res['content'], $retTextFirst);
              # Получаем заголовки к каждому параграфу, если они есть
              preg_match_all('/<strong>(.*)<\/strong>/S', $res['content'], $retTextStrong);
              # Получим нумерованные списки, если есть
              preg_match_all('/<\/span>(.*)<\/h2>/S', $res['content'], $retNum);
              # Получаем Основной заголовок для статьи, если он есть
              preg_match_all('|\<h1.*\><span class=\'article_anchor_title\'>(.*)<\/span>(.*)<\/h1>|isU', $res['content'], $retZag);
              if(isset($retZag[2])){
              $string = implode(", ", $retZag[2]);
              $stringStrip = strip_tags($string);
              $strEx = substr($stringStrip, 5);
              }

Дальше я считаю кол-во элементов в каждом массиве

if(isset($retData[2])){$retDataCount = count($retData[2]);}
if(isset($retText[1])){$retTextCount = count($retText[1]);}
             if(isset($retTextFirst[1])){$retTextFirstCount = count($retTextFirst[1]);}
             if(isset($retNum[1])){$retNumCount = count($retNum[1]);}
             if(isset($retTextStrong[1])){$retTextStrongCount = count($retTextStrong[1]);}
             # находим максимальный счетчик из представленных массивов
             $maxCount = max($retDataCount, $retTextCount, $retTextFirstCount, $retTextStrongCount);
             # Начинаем формировать строчку
             $retSTR = '';

Ну а далее, по максимальному счетчику выполняю кол-во циклов сбора строки.

for($i=0;$i<$maxCount;$i++){
             # Если есть заголовок для параграфа - добавляем в строку
             if(isset($retTextStrong[1][$i])){$retSTR .= ''.$retTextStrong[1][$i].'<br /><br />';}           
             if(isset($retData[2][$i])){$retData[2] = array_map('stripslashes', $retData[2]);}
             # Если есть изображения в статье, добавляем их в строку
             # Скачиваем картинки на сервер
             if(isset($retData[2][$i])){
             $link = $func->urlLoadFile($retData[2][$i],$cat_upload,$cat_dnload,$url_dnload,$tmpPath,$author,$_SESSION['AID']);
             $retSTR .= '<img src="'.$link.'" style="max-width:640px;width:auto;"><br />';
             }
             # Если есть текст в статье, добавляем в строку
             if(isset($retText[1][$i])){$retSTR .= '<br />'.strip_tags($retText[1][$i]).'<br />';}
             if(isset($retTextFirst[1][$i])){$retSTR .= '<br />'.strip_tags($retTextFirst[1][$i]).'<br />';}
             # Если есть Нумерованный список, добавляем в строку
             if(isset($retNum[1][$i])){$retSTR .= '<h2>'.$retNum[1][$i].'</h2>';}
             }

Я получил все необходимые данные из статьи, НО, порядок публикации этих элементов я не знаю и собираю строку "на угад". Можно как-то это определять или может подход изначально другой должен быть?

Вопрос задан более трёх лет назад
83 просмотра

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Skillfactory

Профессия Fullstack веб-разработчик на JavaScript и PHP

20 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

7 комментариев

Александр @MirDj Автор вопроса

Я пробовал разобраться, прежде чем написать сюда, но не смог элементарно понять как получить объект по классу? По id нашел, по классу нет. Да и не совсем понятно в итоге, как же все-таки потом определять порядок элементов перед выводом.

Написано более трёх лет назад
Александр @MirDj Автор вопроса

BD_ l3ftoverZ!, Хорошо, допустим. Но суть вопроса остается в том, а как данные потом собрать в том же порядке? Да и сейчас все на регулярках работает, в том плане что данные я получаю все какие надо. Вопрос как их в исходном порядке потом "собрать"?

Написано более трёх лет назад
Дмитрий @Compolomus Куратор тега PHP

Александр, там есть такая штука как xpath
На основе её есть парсер пакет zendframework
Если с css дружите, без проблем составите
https://framework.zend.com/manual/1.11/ru/zend.dom...

Написано более трёх лет назад
Александр @MirDj Автор вопроса

Дмитрий, спасибо. Почитаю. А по моему варианту идей нет? У меня была чисто теоретическая идея - проходить оригинальную статью как то поиском каждого распарсенного блока(,текст, картинка, заголовок и т.д.) в цикле и записывать в массив какой элемент за каким следует, а потом уже согласно массива собирать строку.. Но это чисто теория, на практике как такое сделать не знаю возможно ли...

Написано более трёх лет назад
Дмитрий @Compolomus Куратор тега PHP

Александр, Ну при работе с DOM вы не теряете эту вложенность

Написано более трёх лет назад
Александр @MirDj Автор вопроса

Дмитрий, Пока я даже не могу представить как именно. ну указал я каким-то образом что мне нужно получить значение дива с классом "bla-bla". Он мне "выдрал", я записал в переменную. Вот в ней текст из этого блока... А каким образом тут вложенность? Наверное я что-то не понимаю просто.

Написано более трёх лет назад
Дмитрий @Compolomus Куратор тега PHP

Александр, ну оно завязано как родитель к потомку
php.net/manual/ru/class.domxpath.php
Первый пример гляньте

Написано более трёх лет назад