PHP Simple HTML DOM Parser. Почему не могу получить элемент?

Question

Игорь @GansikUA

PHP Simple HTML DOM Parser. Почему не могу получить элемент?

Доброго времени суток!
Первый раз пишу парсер.
Нужно пропарсить вот такую Страничку масел, а точней информацию которая находится в таблице.
Погуглил, решил воспользоватся парсером PHP Simple HTML DOM Parser.
Частично получилось. Не могу понять, только как мне получить элементы которые указаны на скриншоте:

Мой код:

<?php
include 'simple_html_dom.php';

$link = 'http://lubematch.shell.com/ru/ru/equipment/100_2_8i_avant_001755';

   $data = file_get_html($link);

   $result = array();

        foreach($data->find('td.application') as $a){

          $result['application'][] =  $a->plaintext;

        }

        foreach($data->find('td.recommendation') as $a){

            $result['recommendation'][] =  $a->plaintext;
        }

        foreach($data->find('td.capacity') as $a){

            $result['capacity'][] =  $a->plaintext;
        }

    

   echo "<pre>";
    print_r($result);
  echo "</pre>";
?>

Ответ получаю:

Заранее буду благодарен за помощь.

Вопрос задан более трёх лет назад
11738 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

11 комментариев

Игорь @GansikUA Автор вопроса

@alekciy Спасибо за ответ, получилось. Если не трудно, можете объяснить этот участок кода?
//table[@id="recommendation"]//tr[5]/td[1]

Написано более трёх лет назад
Игорь @GansikUA Автор вопроса

@alekciy Разобрался вроде.
Находит таблицу с id recommendation
Выбирает 5 строку, первую ячейку.

Написано более трёх лет назад
Алексей Сундуков @alekciy

@GansikUA в контексте XPath правильнее говорить о позиции в наборе узлов.

1) // (это сокращенный синтаксис, полностью ось записывается как descendant:: ) это "все потомки узла контекста", т.е. как прямые потомки, так и потомки потомков, поскольку узел текста не задан, то по умолчанию им становиться html.
2) table[@id="recommendation"] получить набор узлов связанных со всеми table, но выбрать только те, атрибут id которых равен recommendation, поскольку на странице может быть только один элемент с уникальным id, то получили набор узлов состоящий из одного узла, этот узел является контекстом для следующих шагов адресации.
3) //tr[5] (это сокращенный вид записи, полный такой descendant::tr[position=5] "среди всех потомков table найти узел элемента tr позиция которого в наборе равна 5-ти", на этом шаге адресации мы получили набор узлов состоящий из одного узла, этот узел связан с 5-ым элементом tr он и будет является контекстом для следующего шага адресации.
4) td[1] (child::td[position=1]) "среди всех непосредственных потомков узла контекста найти связанные с элементами td, оставить из этого набора первый".

Общая схема такая: оси задают где ищем (среди потомков, среди всех потомков, среди соседей и т.д.), условия задают что ищем (все узлы, узлы связанные с элементом с именем ХХ, предикаты задают условия фильтрации получившегося набора (их может быть несколько).

Написано более трёх лет назад
Игорь @GansikUA Автор вопроса

@alekciy Огромное Вам спасибо, за объяснение. Теперь более понятно. Будем учится :-)

Написано более трёх лет назад
Алексей Сундуков @alekciy

@GansikUA вообще для парсинга крайне рекомендую использовать XPath и только XPath. Он великолепен! Позволяет составлять очень навороченные правила (в духе, "найти соседа третьего потомка элемента в классе которого содержится подстрока item"), но которые писать очень просто и легко, при этом если правильно писать выражения, то парсер не развалиться даже если на странице изменится верстка.

Написано более трёх лет назад
Игорь @GansikUA Автор вопроса

@alekciy а подскажите еще, как быть, когда на некоторых страницах нету данных ячеек? lubematch.shell.com/ru/ru/equipment/yaris_l_yaris_...

Я в ответ в таком случае получаю, совсем не то, что мне нужно.

Написано более трёх лет назад
Алексей Сундуков @alekciy

@GansikUA если нужно получить Standart, а его нет, то код упадет с ошибкой тут ->item(0). Решается if-ом и проверкой на length полученного набора узлов.

Написано более трёх лет назад
Игорь @GansikUA Автор вопроса

@alekciy еще раз спасибо, добрый человек. Получилось.
Тут еще как оказалось, прямо в инструментах разработчика хрома, можно скопировать условия XPath ))) вообще супер.

Написано более трёх лет назад
Алексей Сундуков @alekciy

@GansikUA его можно скопировать и в фаербаге и вообще в любом адекватном инструменте. На практике устойчивых парсеров от этих готовых выражений толку мало, хотя на них можно бывает ориентироваться.

Написано более трёх лет назад
Александр Ковалев @JamesBondMsk

Алексей, большое спасибо!
Несколько дней потратил на simple_php_dom, но наткнулся на ваш ответ, и теперь я использую xpath и у меня все работает ).

Написано более трёх лет назад
Алексей Сундуков @alekciy

Александр Ковалев, пожалуйста!
Если кто-то еще попадет в этот тред в будущем, то вот видео объясняющее базовые принципы XPath: https://youtu.be/id_MNxmdRvk

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 1 подписчик
- 16 июл.
- 147 просмотров
6

ответов
PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 104 просмотра
1

ответ
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 268 просмотров
3

ответа
HTML

+2 ещё

Простой
Как запретить формирования ссылок вида /tel:?
- 2 подписчика
- 01 июл.
- 296 просмотров
3

ответа
HTML

+1 ещё

Средний
Как выставить элементу ширину по содержимому при переносах?
- 1 подписчик
- 30 июн.
- 171 просмотр
1

ответ
HTML

+3 ещё

Средний
Как создать каркас верстки который будет считаться по высоте, а не по ширине?
- 4 подписчика
- 26 июн.
- 395 просмотров
4

ответа
JavaScript

+2 ещё

Простой
Не работает тень + слайдер, есть варианты?
- 2 подписчика
- 21 июн.
- 202 просмотра
1

ответ
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 918 просмотров
3

ответа
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 640 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 206 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2014-01-25 21:14:20

Use XPath, Luke.

<?php

// [1- Скачиваем файл
// Создаем поток
$opts = array(
	'http' => array(
		'method'  => 'GET',
		'timeout' => 10,
	),
);

$context = stream_context_create($opts);

// Открываем файл с помощью установленных выше HTTP-заголовков
$page_content = file_get_contents('http://lubematch.shell.com/ru/ru/equipment/100_2_8i_avant_001755', false, $context);
// -1]

// [2- Парсим данные
// [3- Строим DOM
// по сути - отключаем вывод ошибок валидации
libxml_use_internal_errors(true);
$page_dom = new \DOMDocument();

$page_dom->strictErrorChecking = false;
$page_dom->preserveWhiteSpace  = false;
$page_dom->validateOnParse     = true;

$page_dom = new \DOMDocument();

// [4- loadHTML не дает использовать utf-8, делаем хаком http://php.net/manual/en/domdocument.loadhtml.php#95251
$page_dom->loadHTML('<?xml encoding="UTF-8">' . $page_content);

foreach ($page_dom->childNodes as $node) {
	if ($node->nodeType == XML_PI_NODE) {
		$page_dom->removeChild($node);
	}
}
$page_dom->encoding = 'UTF-8';
// -4]

$page_xpath = new \DOMXPath($page_dom);
// -3]

// Вытаскиваем Standard
$param_1 = $page_xpath->query('//table[@id="recommendation"]//tr[2]/th')->item(0)->nodeValue;
// Вытаскиваем Spirax S4 ATF HDX
$param_2 = $page_xpath->query('//table[@id="recommendation"]//tr[5]/td[1]')->item(0)->nodeValue;
// -2]

var_dump($param_1, $param_2);

Answer 2 · 2014-01-25 21:09:55

Если посмотреть исходный код странички - станет ясно, почему отмеченный текст не попадает в выборку.
Например, ты ищешь td с классом recommendation, но не все td в третьем столбце имеют этот класс. Например тут <td>Spirax S4 ATF HDX</td> этого класса нет. Так же ты вообще не берешь данные из столбца, в котором лежат заголовки <th class="tiername tiername">Standard</th>, откуда же им у тебя взяться? =)

Я бы на твоем месте по какому-нибудь другому принципу парсил. Какую структуру ты в итоге хочешь получить?

PHP Simple HTML DOM Parser. Почему не могу получить элемент?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт