Как выкачивать страницы второго уровня simple_html_dom.php?

Question

Николай @zzzmaikzzz

Junior-web

Как выкачивать страницы второго уровня simple_html_dom.php?

Подскажите, как выкачать по ссылкам каталога страницы второго уровня с помощью simple_html_dom.php

Взял все ссылки на рейсы:

// set_time_limit(10);
require_once 'simple_html_dom.php';
require_once 'curl.php';
$site = 'http://biletyczarterowe.r.pl';
$html = curl_get('http://biletyczarterowe.r.pl');
$dom = str_get_html($html);

foreach($dom->find('table[id=prawyKwadrat] tr td a') as $element) {
		$a = $element->href;
   		$a = $site . htmlspecialchars_decode($a);
// --------------------------------------------------------------
   		$page = curl_get($a);
   		$page_dom = str_get_html($page);
    file_put_contents(md5($page_dom) . '.html', $page_dom);
	}

А как теперь спарсить эти самые ссылки и как на них создать страницы ?

Вопрос задан более трёх лет назад
357 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

8 комментариев

7 комментариев

Decadal @Decadal

покажите код, который запускаете

Написано более трёх лет назад
Николай @zzzmaikzzz Автор вопроса

// set_time_limit(10);
require_once 'simple_html_dom.php';
require_once 'curl.php';
$site = 'biletyczarterowe.r.pl';
$html = curl_get('biletyczarterowe.r.pl');
$dom = str_get_html($html);

foreach($dom->find('table[id=prawyKwadrat] tr td a') as $element) {
$a = $element->href;
$a = $site . htmlspecialchars_decode($a);
// --------------------------------------------------------------
$page = curl_get($a);
$page_dom = str_get_html($page);
file_put_contents(md5($page_dom) . '.html', $page_dom);
}

Написано более трёх лет назад
Decadal @Decadal

$html = file_get_html($link);//убедитесь, что считает

foreach($html->find('table[id=prawyKwadrat] a') as $a)
{
//убедитесь, что попадает в цикл
file_put_contents(md5($a->href).".html",file_get_contents($a->href));
}

попробуйте так

Написано более трёх лет назад
Decadal @Decadal

Кстати, вы действительно так и указываете сайт, без http://?
Включите, пожалуйста, отображение всех ошибок . может оказаться, что проблема гораздо очевиднее чем мы думаем

Написано более трёх лет назад
Николай @zzzmaikzzz Автор вопроса

Их режит тостер, конечно нет.

Написано более трёх лет назад
amorphine @amorphine

Николай: xdebug умеете использовать? Что-нибудь предприняли для отладки? В каком месте программы получаются значения, которые заведомо должны быть иными?

Написано более трёх лет назад
Николай @zzzmaikzzz Автор вопроса

amorphine: Проблема в том, что после перехода по ссылке и загрузки страницы эффект нулевой из-за того, что там календарь js, который не парсится

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Скачивание файла средствами php без ожидания загрузки файла?
- 1 подписчик
- 19 июл.
- 157 просмотров
1

ответ
PHP

+1 ещё

Простой
Почему телеграмм отправляем сразу несколько webhook?
- 2 подписчика
- 18 июл.
- 1046 просмотров
1

ответ
PHP

Простой
Обновление версии PHP с 7.4.33 до 8.3 насколько необходимо?
- 2 подписчика
- 17 июл.
- 1493 просмотра
3

ответа
PHP

Средний
Почему так работает usort?
- 1 подписчик
- 17 июл.
- 181 просмотр
1

ответ
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- 16 июл.
- 124 просмотра
3

ответа
PHP

+2 ещё

Простой
Не приходят сообщения с контактной формы, Извините, данные не были переданы?
- 1 подписчик
- 15 июл.
- 215 просмотров
3

ответа
PHP

+2 ещё

Простой
Есть web-сервер на php или nodejs который поддерживает работу с .htaccess?
- 1 подписчик
- 07 июл.
- 1659 просмотров
5

ответов
Парсинг

+1 ещё

Простой
Datacol программа некоректно работает с прокси, вопрос почему?
- 1 подписчик
- 06 июл.
- 85 просмотров
0

ответов
PHP

Простой
Лишние переводы строк в ответе сервера (echo)?
- 1 подписчик
- 04 июл.
- 187 просмотров
1

ответ
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 119 просмотров
1

ответ
Показать ещё Загружается…

PHP developer

Marfatech

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

PHP-разработчик

SM Lab • Москва

Answer 1 · 2016-08-17 23:35:28

//в теле цикла
$linkPage = file_get_html($element->href);
// и лучше сделать рекурсивно - оформить парсинг страниц как функцию, принимающую html и кинуть этот контент в неё же 
//а это для решения вашей задачи
file_put_contents(<хэш имени файла>, $linkPage);

если вам нужно спарсить не только страницу, но и всё, на что ссылается целевая страница, то лучше использовать cURL. По крайней мере, если уровень вложенности будет больше двух.

Answer 2 · 2016-08-17 23:14:47

Обновил

$html = file_get_html('http://biletyczarterowe.r.pl/');
foreach($html->find('table[id] tr td a') as $element) {
    $outer_html  = file_get_html($element->href);
    $file = fopen(md5($outer_html) . '.html', 'w');
    fwrite($file, $html);
    fclose($file);
}

Answer 3 · 2016-08-18 09:54:25

Николай @zzzmaikzzz Автор вопроса

Junior-web

Ни один из вариантов не заработал...

Ответ написан более трёх лет назад

7 комментариев

Как выкачивать страницы второго уровня simple_html_dom.php?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт