Как правильно вывести дату при парсинге информаций?

Question

Дмитрий Раду @dmitry_radu

PHP

Как правильно вывести дату при парсинге информаций?

Здравствуйте,
Появилось необходимость сделать парсер информаций с сайта epscape[dot]com.
Собрал простенький php скрипт который парсит что мне нужно, кроме даты :( ...
Подскажите пожалуйста, как можно вывести дату ?

У меня сейчас выводится вот так:

а мне нужно так:

<?php
// Это адрес сайта, мы записываем его с переменную $pageurl 
$pageurl = 'http://epscape.com/calendar/next'; // http://epscape.com/calendar/next


// Получаем полный html текст страницы и сохраняем в переменную $html
$html = file_get_contents($pageurl);

// меняем кодировку на utf-8
$html = mb_convert_encoding($html, 'HTML-ENTITIES', 'utf-8');

// отключаем вывод ошибок из-за неправильного html кода
libxml_use_internal_errors(TRUE);

// тут мы создаем объект класса domDocument 
$dom = new DOMDocument(); 

// И загружаем в него html код 
$dom->loadHTML($html); 
$xpath = new DomXPath($dom);



// задаём радиус парсинга
$radius = $xpath->query('//div[@class="left-side"]/*');

$i=0;
foreach($radius as $radiu) {
$img = $xpath->query("//div[contains(@class, 'episodes-image')]//img")->item($i)->getAttribute('src');

$title = $xpath->query("//div[contains(@class, 'shrutitle')]/a")->item($i)->nodeValue; 

$original_title = $xpath->query("//div[contains(@class, 'shtitle')]")->item($i)->nodeValue; 

$episode_name = $xpath->query("//div[contains(@class, 'eptitle')]")->item($i)->nodeValue; 

$date = $xpath->query("//div[contains(@class, 'date')]")->item($i)->nodeValue; 

$i++;


echo $img. '| ' .$title. '| ' .$original_title. '| ' .$episode_name. '<br />';


}
?>

Также хотелось бы услышать ваше мнение, на сколько собранный мною код плох ?)

Вопрос задан более трёх лет назад
287 просмотров

3 комментария

Подписаться 1 Оценить 3 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

17 комментариев

Дмитрий Раду @dmitry_radu Автор вопроса

releasetracker[dot]ru | serialdata[dot]ru

Написано более трёх лет назад
OVK2015 @OVK2015

Спасибо, большое! То что нужно.

Написано более трёх лет назад
OVK2015 @OVK2015

Попробуйте ф-цию вызвать,- должно сработать
$content = file_get_contents($pageurl);
getEpscapeData($content);

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015, Можешь подсказать пожалуйста как сделать ajax навигацию или навигацию по дням ?

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
Хм.. А это к чему? Поподробней можно?

Написано более трёх лет назад

Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015: Страница слишком длинная, хотелось бы сделать ajax подгрузку элементов... прочитал много гайдов в интернете но не то :(

Пример:

У меня выводится на странице 5 элементов, при клике на <div id="load-more">Загрузить еще</div> выводится еще 5.

Возможно ли это как то осуществить данным кодом ?

<?php
/**
 * Date release series - Парсер даты выхода новых серий
 * =======================================================
 * Файл:  series_release.php
 * =======================================================
 */

// Главная строка
if (!defined('DATALIFEENGINE')) die("Go fuck yourself!");

// Адреса которые мы будем парсить
$urls = array('http://epscape.com/calendar/next','http://epscape.com/calendar/next/2','http://epscape.com/calendar/next/3');

foreach($urls as $urlsItem) {  //пропускаем каждую ссылку в цикле
      $output = curl_init();  //подключаем курл
      curl_setopt($output, CURLOPT_URL, $urlsItem); //отправляем адрес страницы
      curl_setopt($output, CURLOPT_RETURNTRANSFER, 1);
      curl_setopt($output, CURLOPT_HEADER, 0);
      $content .= curl_exec($output);   //помещаем html-контент в строку
      curl_close($output);  //закрываем подключение
    }

// Отдаём html-контент на обработку
getEpscapeData($content); 




/*!!! Тут лучше ничего не трогать !!!*/
function getEpscapeData($content)
  {    

    $db = new db;

    $regExpDateWrapper =
      "#".
      "(?=<div class=\"epdate\">)(?:.*?)(\d{1,2}\s.*?)(?:</span>|</small></h5>)(?:</div>)".
      "(?:(?:<div class=\"episode\">)(.*?)(?:</div></div></div>))+".
      "#si";        
    $regExpSeriesWrapper = 
      "#".
      "(?:<div class=\"episode\">)(?:.*?)".
      "(?:<img src=\")(.*?)\"(?:.*?)".
      "(?:<div class=\"shrutitle\"><a(?:.*?)>)(.*?)(?:</a>)".
      "(?:.*?)(?:class=\"shtitle\">)(.*?)</div>".
      "(?:.*?)(?:class=\"eptitle\"><b>)(.*?)(?:</b>\s{0,})(.*?)".
      "(?:</div></div></div>)".
      "#si";

    preg_match_all($regExpDateWrapper, $content, $dateMatches, PREG_SET_ORDER); 
    foreach($dateMatches as $currentDate) 
    { 
         echo '<div class="ep-date"><span class="date">'.$currentDate[1].'</span></div>';

      preg_match_all($regExpSeriesWrapper, $currentDate[0], $seriesMatches, PREG_SET_ORDER);
      foreach($seriesMatches as $currentSeries) 
      {

    $row = $db->super_query( "SELECT id, alt_name FROM " . PREFIX . "_post WHERE title LIKE '%".$currentSeries[2]."%'"); 

    $full_link = $config['http_home_url'] . "/watch/" . $row['id'] . "/";
       

    if ($row['id'])  {
      	$episode_release =
      	  "<div class=\"episode\">".      
          "<div class=\"ep-img\"> <img src=\"$currentSeries[1]\"> </div>".
          "<div class=\"episode\">". 
          "<div class=\"ep-title\"><a href=\"$full_link\">$currentSeries[2]</a></div>".
          "<div class=\"ep-otitle\">$currentSeries[3]</div>".
          "<div class=\"ep-name\"><b>$currentSeries[4]</b> $currentSeries[5]</div>".
          "</div>"."</div>";
    } else {
    	$episode_release =
      	  "<div class=\"episode\">".      
          "<div class=\"ep-img\"><img src=\"$currentSeries[1]\"></div>".
          "<div class=\"episode\">". 
          "<div class=\"ep-title\">$currentSeries[2]</div>".
          "<div class=\"ep-otitle\">$currentSeries[3]</div>".
          "<div class=\"ep-name\"><b>$currentSeries[4]</b> $currentSeries[5]</div>".
          "</div>"."</div>";
    }

         echo $episode_release;
      }
     
    }   
 
  }

Написано более трёх лет назад

OVK2015 @OVK2015

Дмитрий Раду:
Т.е. за одно обращение к php-скрипту он отдает содержимое 5-ти первых страниц с epscape?
А чего хочется?

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015 Вот пример: jsfiddle.net/cse_tushar/6FzSb

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
При каждом обращении выводил данные с 3-ех следующих страниц?

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015: Да При каждом обращении выводились еще 3 таких блока https://s.mail.ru/4rF8xeaXYTaL/img-2016-02-28-20-5...

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
Подправил ответ. Кратко. Но идея думаю понятно. Пишете, если чего не понятно,- попробую объянить

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015: Спасибо вам огромное! У вас есть skype или icq ?

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
Не за что. Завтра будет

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015: Добавьте меня пожалуйста у меня к вам остался 1 маленький вопрос :)

Skype: dmitry.radu ICQ: 654485472 Vkontakte: vk.com/dmitry.radu

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
Добро. Завтра отпишусь

Написано более трёх лет назад
Дмитрий Раду @dmitry_radu Автор вопроса

OVK2015: Здравствуйте, еще не создали себе skype или icq ?

Написано более трёх лет назад
OVK2015 @OVK2015

Дмитрий Раду:
Наверно, я чего-то не понимаю в ICQ...
Еще 29 числа отписался, как и говорил. Вот мой UIN: 665750467,- попробуйте

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 440 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 335 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
PHP

Средний
Как подключиться к серверу PHP и чтобы отображались исполнители?
- 1 подписчик
- 24 апр.
- 282 просмотра
3

ответа
Показать ещё Загружается…

Answer 1 · 2016-02-22 12:51:36

function getEpscapeData($content)
	{		
		$regExpDateWrapper =
			"#".
			"(?=<div class=\"epdate\">)(?:.*?)(\d{1,2}\s.*?)(?:</span>|</small></h5>)(?:</div>)".
			"(?:(?:<div class=\"episode\">)(.*?)(?:</div></div></div>))+".
			"#si";		
		$regExpMovieWrapper = 
			"#".
			"(?:<div class=\"episode\">)(?:.*?)".
			"(?:<a href=\")(.*?)\"(?:.*?)".
			"(?:<div class=\"shrutitle\"><a(?:.*?)>)(.*?)(?:</a>)".
			"(?:.*?)(?:class=\"shtitle\">)(.*?)</div>".
			"(?:.*?)(?:class=\"eptitle\"><b>)(.*?)(?:</b>\s{0,})(.*?)".
			"(?:</div></div></div>)".
			"#si";
		preg_match_all($regExpDateWrapper, $content, $dateMatches, PREG_SET_ORDER);		
		foreach($dateMatches as $currentDate) 
		{			
			echo iconv("UTF-8", "CP1251", $currentDate[1])."\n";

			preg_match_all($regExpMovieWrapper, $currentDate[0], $movieMatches, PREG_SET_ORDER);
			foreach($movieMatches as $currentMovie) 
			{
				$movieInfo = 
					"Link: ".$currentMovie[1]."\n".
					"Название сериала: ".$currentMovie[2]."\n".
					"Оригинальное название: ".$currentMovie[3]."\n".
					"Название эпизода: ".$currentMovie[4]." ".$currentMovie[5]."\n\n";
				echo iconv("UTF-8", "CP1251", $movieInfo);	
			}
			echo "*********************************\n";
		}		
	}

Держите код. По мне, так regExp в данном случае лучше, чем xpath. Шустрее будет, чем с DOM в PHP возиться.
У меня вопрос: а вы, часом, похожие сайты не знаете?

Так, ну примерно так:
javascript:

var pageIndex=1;
$.ajax
    		({
                url: 'путь к php файлу',                
                data: {pageIndex: pageIndex},
                type: 'get',
                success: function(answer)
                {
                        // Добавляем результат на страницу
                	console.log(answer);    
                        pageIndex += 3;            	
                },
                error: function(error)
                {
                	console.log('Ошибка');
                    console.log(error);
                }
     		});

В php

$answer = "";
$url = "http://epscape.com/calendar/next/";

$pageIndex = $_REQUEST['pageIndex'];
for($counter = 0; $counter < 3; $counter++)
{
   $answer .= getEpscapeData($url.($counter + 1));
}
echo $answer;

function getEpscapeData($url)
{
........
return recievedData;
}

В кратце как-то так. На смарте не удобно писать.

Answer 2 · 2016-02-21 18:25:04

Придраться практически всегда можно к любому коду.
Однако хочу Вас похвалить за то, что используете xpath, а не парсите регулярками, как это делает немалое количество людей.

Как правильно вывести дату при парсинге информаций?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт