Как связать PHP Simple HTML DOM Parser с cURL?

Question

midarovrk @midarovrk

PHP

Как связать PHP Simple HTML DOM Parser с cURL?

Помогите связать php simple html dom parser с curl.

Написал простенький парсер изображений на основе PHP Simple HTML DOM Parser
Парсер по url перекачивает картинки к себе на сервер. Но есть одно но, в документации написано:

К сожалению, file_get_html загружает страницы обычным file_get_contents. Это значит если хостер, выставил в php.ini allow_url_fopen = false (т.е. запретил удаленно открывать файлы), то загрузить что-то удаленно, не получится. Да и серьезные веб сайты таким способом парсить не стоит, лучше использовать CURL с поддержкой proxy и ssl. Однако для наших опытов, вполне хватит и file_get_html.

Там советуют использовать в связке с cURL.

Вот мой код парсинга.

<?php
require_once 'simple_html_dom.php';

// поисковый URL
$url = 'https://сайт.org/ссылка'
$n = 200;
// загружаем данный URL
$data = file_get_html($url);
// очищаем страницу от лишних данных
foreach($data->find('script,link,comment') as $tmp)$tmp->outertext = '';
// находим все изображения на странице
if(count($data->find('div#all img'))){
  $i = 1;
  foreach($data->find('div#all img') as $img){

  Ну и тут уже сам код парсинга.

    if($i>$n)break; // выходим из цикла если скачали достаточно фотографий
  }
}
$data->clear();// подчищаем за собой
unset($data);
?>

Как к этому коду привязать cURL, т.е. чтобы в дальнейшем можно было использоваться $url и $data в PHP Simple HTML DOM Parser ?

$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'https://сайт.org/ссылка');
   curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17');
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
 curl_setopt($ch, CURLOPT_REFERER,'https://сайт.org');
$url = curl_exec($curl);
curl_close($curl);

Вопрос задан более трёх лет назад
859 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

4 комментария

midarovrk @midarovrk Автор вопроса

Я пробовал сделать вот так:

$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'https://сайт.org/ссылка');
   curl_setopt($ch, CURLOPT_HEADER, 0);
    curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.57 Safari/537.17');
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 30);
 curl_setopt($ch, CURLOPT_REFERER,'https://сайт.org');
$url = curl_exec($curl);
curl_close($curl);

require_once 'simple_html_dom.php';

// Тут $url удалил так как выше в curl он уже есть.

$n = 200;
// загружаем данный URL
$data = file_get_html($url);

// И тут дальше остальной код.........

Но с такой конструкцией происходит не парсинг, а просто открытие страницы указываемой в curl_setopt($curl, CURLOPT_URL

Написано более трёх лет назад

Евгений @Nc_Soft

midarovrk, надо для начала посмотреть что лежит в переменной
$url = curl_exec($curl);

Написано более трёх лет назад
Евгений @Nc_Soft
midarovrk, короче надо заменить вот так

$url = curl_exec($curl); $data= str_get_html($url);
Написано более трёх лет назад
midarovrk @midarovrk Автор вопроса

Евгений, спасибо, вы мне помогли.

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 129 просмотров
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 224 просмотра
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 478 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 256 просмотров
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 200 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 161 просмотр
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2478 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 351 просмотр
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 193 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 256 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2020-05-18 13:31:33

Разделите код на 3 логические части и реализуйте их независимо
1. получение кода страницы (curl, guzzle)
2. парсинг и получение урл картинок (dom parser, didom, symfony/dom-crawler)
3. скачивание картинок (curl, guzzle, wget)

Как связать PHP Simple HTML DOM Parser с cURL?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт