Почему не работает xpath?

Question

Микола @iSensetivity

бухгалтер, програміст-самоук

Почему не работает xpath?

Хочу спарсить таблицу, код

$fileByUrl = 'http://w1.c1.rada.gov.ua/pls/z7503/a002';
$referer = 'http://rada.gov.ua/';

	$ch=curl_init();
	curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_REFERER, $referer);
    curl_setopt($ch, CURLOPT_USERAGENT, "Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.9.168 Version/11.51");
	curl_setopt($ch, CURLOPT_URL, $fileByUrl);
	curl_setopt($ch, CURLOPT_TIMEOUT, 10);
    curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');
	curl_setopt($ch, CURLOPT_COOKIEFILE,  'cookie.txt');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_ENCODING,'gzip');
	$str = curl_exec($ch);
	$info = curl_getinfo($ch);
	curl_close($ch);

$code = $info['http_code'];
	if($code == 200){
		$doc = new DOMDocument;
		$doc->load($str);
		
		$xpath = new DomXPath($doc);
		$res = $xpath->query('//*[@id="content-all"]/div[2]/div/table/tbody/tr[3]');
		foreach($res as $obj) {
			echo $obj->nodeValue;
        }

echo не вьіводит ничего.

Вопрос задан более трёх лет назад
4335 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 2

2 комментария

3 комментария

nowm @nowm

@Lafafm а я про cURL ничего и не писал. Переменную $str можно и с помощью file_get_contents() заполнить. Я просто ориентировался на то, что в $str содержится HTML. Вполне можно вообще делать «loadHTMLFile($url)» —никакого cURL и никакого file_get_contents. А кодировку можно во время инициализации DomDocument указывать.

Написано более трёх лет назад
Владислав Радзимовский @Lafafm

@Xu4 Да я и удалил вопрос сразу, так как удосужился перечитать..)
Вот правда до сих пор не могу добраться до использования DOM в php
Все в регулярках..

Написано более трёх лет назад
nowm @nowm

@Lafafm мне кажется, кому как удобнее, тот так и делает. Регулярки — хорошо, XPath — тоже хорошо. Тут нет проблемы. :)

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 135 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 700 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 482 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 257 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 203 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2484 просмотра
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 353 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2014-06-11 20:01:32

Лично я не знаю как правильно, но почему бы не использовать file_get_contents, и после получения страницы с помощью простого регулярного выражения взять таблицу?

Вот решение:

$html = file_get_contents("http://w1.c1.rada.gov.ua/pls/z7503/a002");
preg_match('#<table  class="striped Centered" WIDTH="100%" cellspacing=0 cellpadding=3>(.+?)</table>#is', $html, $arr);
echo $arr[0];

Answer 2 · 2014-06-11 20:49:46

В первую очередь — из-за этого:

$doc->load($str);

«load» — это для загрузки файлов и в качестве параметра ей нужно давать путь к файлу. Если вы хотите загрузить строку, нужно использовать функцию «loadHTML».

Дальше у вас появится куча предупреждений. Если появится сообщение про то, что непонятки с кодировкой появились, от него можно избавиться, если поправить строку с loadHTML:

$doc->loadHTML(mb_convert_encoding($str, 'HTML-ENTITIES', 'UTF-8'));

Кроме строки про кодировку будет ещё куча предупреждений, вроде:

Warning: DOMDocument::loadHTML(): Opening and ending tag mismatch: li and div in Entity
Warning: DOMDocument::loadHTML(): htmlParseEntityRef: expecting ';' in Entity
Warning: DOMDocument::loadHTML(): Opening and ending tag mismatch: td and b in Entity

Чтобы эти уведомления не засоряли эфир, можно добавить символ «@» при вызове «loadHTML»:

@$doc->loadHTML($str);

Дальше, чтобы удостовериться, что те узлы, которые вы пытаетесь искать, всё-таки существуют, можно вывести список вообще всех узлов, вот так:

$res = $xpath->query('.//*');
foreach($res as $obj) {
	echo $obj->getNodePath() . "\n\r";
}

Из листинга будет видно, что упоминание связки «table/tbody/tr» некорректно. «TBODY» там нет. Такой XPath-запрос сработает нормально в FirePath из Firefox, например. И работает он из-за того, что Firefox самостоятельно достраивает DOM документа до идеального по его мнению состояния — например, добавляет «TBODY», где его нет, закрывает незакрытые теги и так далее.

В ситуации с DomDocument и DomXPath лучше смотреть чистый исходный код страницы и строить запросы именно по исходному коду, а не по сгенерированному браузером DOM.

В вашей ситуации нужно из запроса просто убрать «tbody». Получится такой запрос:

//*[@id="content-all"]/div[2]/div/table/tr[3]

Как я вижу, решение уже появилось, но, вообще, такой подход, который я описал, поможет искать ошибки в подобных ситуациях.

Почему не работает xpath?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт