Почему при парсинге страницы возвращается пустая страница?

Question

ryzhak @ryzhak

Почему при парсинге страницы возвращается пустая страница?

есть php код который парсит 2 страницы:

$url1 = 'http://www.championat.com/football/_england/773/calendar/date.html';
$url2 = 'http://www.championat.com/football/_england/1042/calendar/tour.html';

//Вернет пустую страницу
echo HtmlDomParser::file_get_html($url1);

//Вернет уже страницу с контентом
echo HtmlDomParser::file_get_html($url2);

Так вот когда парсим $url2, то она парсится нормально, а вот ссылка из $url1 не парсится, то есть возвращается пустой рузальтат, а не нужная страница. Почему? Куда копать?

Thanks in advance

UPD:
Нашел в чем проблема. Я использовал simple_html_dom из этого пакета https://packagist.org/packages/mgargano/simplehtmldom. В функции file_get_html в коде класса есть строки:

$contents = file_get_contents($url, $use_include_path, $context, $offset);
    if (empty($contents) || strlen($contents) > MAX_FILE_SIZE)
    {
        return false;
    }

То есть, если длина контента который мы парсим больше максимальной длины, то ничего не делаем. Вообщем меняем значение константы MAX_FILE_SIZE с 600000 на 6000000 и все работает. Надо еще учесть, что при update composer'а в проекте исходники будут затираться новой версией.

Вопрос задан более трёх лет назад
3315 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 104 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 640 просмотров
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 206 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 462 просмотра
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 194 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2471 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 345 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 189 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2014-07-20 17:52:51

Владимир Фокин @vfokin

Проверьте какие хеадеры приходят по первой ссылке.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-07-20 20:06:55

попробуйте вместо
echo HtmlDomParser::file_get_html($url1);
написать

$dom = HtmlDomParser::file_get_html($url1);
var_dump($dom);

Так можно будет увидеть, что реально возвращает команда. Будет ли там объект класса simple_html_dom или нет.

Почему при парсинге страницы возвращается пустая страница?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт