Почему парсер не видит innertext на двох однотипных страницах?

Question

Teraxis @Teraxis

Почему парсер не видит innertext на двох однотипных страницах?

Запускаю парсер для двох однотипных страниц court.gov.ua/sud1820 и court.gov.ua/sud0828. Цель - извлечь контакты суда. Разметка и кодировка страниц одна и та же. При обработке sud1820 получаю, то что желаю

41200
смт Ямпіль
бул. Ювілейний, буд. 8/2

А при обработке страницы sud0828 парсер не видит innertext.

require_once __DIR__ . '/parser/simple_html_dom.php';
$data = file_get_contents('http://court.gov.ua/sud0828');
$data = mb_convert_encoding($data, 'utf-8', 'windows-1251');
$data = str_get_html_2($data);
if ($data->innertext != '') {
      $table = $data->find('table.menur1');
      if($table){
		 for($i=0;$i<count($table);$i++){
			CourtFullAddress = strip_tags($table[$i]->find('tr', 1)->children(1));
			list($CourtPostCode, $CourtCity, $street, $build, $section, $section2, $section3) = explode(",", $CourtFullAddress);
		        $CourtStreet = $street.', буд. '.$build.', '.$section.', '.$section2.', '.$section3;
			 print $CourtPostCode.'<br/>';
			 print $CourtCity.'<br/>';
			 print $CourtStreet.'<br/><br/>';
      }
}

Пробовал через curl_init, результат тот же.
В чем может быть проблема?

Вопрос задан более трёх лет назад
160 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Teraxis @Teraxis Автор вопроса

Блок есть court.gov.ua/sud0828 Тостер автоматически вставил точку в конце ссылки. Уберите точку.

Написано более трёх лет назад
Максим Алёхин @Settler1

Тогда действительно странно. Мое предположение - вторая страница значительно больше первой, может вашему парсеру из str_get_html_2() памяти не хватает, может там содержится что-то что ломает структуру страницы.

См в ответе, в комментарий код не добавляется.

Написано более трёх лет назад
Teraxis @Teraxis Автор вопроса

через preg_match действительно работает

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 137 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 709 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 225 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 484 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 259 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 204 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 162 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2487 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 354 просмотра
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 194 просмотра
1

ответ
Показать ещё Загружается…

Answer 1 · 2016-07-09 15:06:36

Старый ответ:

Я не вижу блока с контактами по второй ссылке, не видит потому что его нет?

Новый ответ:

Тогда действительно странно. Мое предположение - вторая страница значительно больше первой, может вашему парсеру из str_get_html_2() памяти не хватает, может там содержится что-то что ломает структуру страницы.

У меня с обоими страницами прошло на ура:

$data = file_get_contents("http://ymp.su.court.gov.ua/sud1820");
preg_match('/<table cellpadding=0 cellspacing=0 class=menur1>.+?<\/table>/s', $data, $matches);
print_r($matches);

Почему парсер не видит innertext на двох однотипных страницах?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт