Как парсить внутренние страницы сайта?

Question

Сергей Ерин @artalexs

PHP
XPath

Как парсить внутренние страницы сайта?

Использую xpath для парсинга списка элементов, вернее их картинок. Но мне нужны изображения оригинального размера, а сейчас страница с которой производится парсинг картинки с ресайзом. Оригинальные картинки получить можно только перейдя по ссылке на каждый элемент списка. Подскажите, как должен выглядеть такой парсер? Сейчас так:

libxml_use_internal_errors(true);
    $url = file_get_contents("https://домен/раздел/);
    /* Новый объект DomDocument */
    $dom = new DomDocument;
    $dom->loadHTML($url);
    /* Новый объект XPath */
    $xpath = new DomXPath($dom);
    /* Селектор элементов */
    $nodes = $xpath->query("//div[@class='bxr-element-container']");
    /* Соединение с базой */
    $mysqli_connect = mysqli_connect(DB_HOSTNAME, DB_USERNAME, DB_PASSWORD, DB_DATABASE) or die("Couldn't connect to bd");
    /* Обновление и помещение значений в базу */
    foreach ($nodes as $i => $node) {
        $title = trim($xpath->query("//div[@class='bxr-element-name']/a", $node)->item($i)->nodeValue);
        $image = 'https://basis-spb.ru' . $xpath->query("//div[@class='bxr-element-image  ']/a/img/@src", $node)->item($i)->value;
        $sql = "INSERT IGNORE INTO oc_materials (`material_name`, `image`) 
                VALUES ('" . $title . "', '" . $image . "')";
        $query = mysqli_query($mysqli_connect, $sql) or die (mysql_error());
    }

Вопрос задан более трёх лет назад
514 просмотров

2 комментария

Подписаться 2 Простой 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 103 просмотра
1

ответ
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 206 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 460 просмотров
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 194 просмотра
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 154 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2470 просмотров
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 345 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 188 просмотров
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 252 просмотра
2

ответа
Показать ещё Загружается…

Покажи vardump($nodes), а также структуру сайта который парсишь.
Посмотри на имена файлов с полным размером. Часто они отличаются от маленьких совсем немного, если так, можно регуляркой задавать путь до полноразмерного

Answer 1 · 2020-01-13 11:40:31

Оригинальные картинки получить можно только перейдя по ссылке на каждый элемент списка. Подскажите, как должен выглядеть такой парсер?

Парсер должен переходить по ссылкам к каждому элементу списка с использованием http-клиента (cURL, например) и дергать картинки оттуда, очевидно.

Как парсить внутренние страницы сайта?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт