Почему Simple HTML DOM не находит отдельные объекты?

Question

asosonko4 @asosonko4

Почему Simple HTML DOM не находит отдельные объекты?

Добрый день, подскажите пожалуйста... Столкнулся со следующей проблемой. Пытаюсь парсить следующую страницу: superdeals.aliexpress.com/en

Необходимо достать div class="pro-msg" который хранится в li с class list-items.
Однако получается так, что далеко не все данные отображаются на странице. Код выглядит следующим образом:

require_once 'simple_html_dom.php';

$base = 'http://superdeals.aliexpress.com/en?spm=2114.11010108.21.1.v65LIL';

$curl = curl_init();
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_HEADER, false);
curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($curl, CURLOPT_URL, $base);
curl_setopt($curl, CURLOPT_REFERER, $base);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, true);
$str = curl_exec($curl);
curl_close($curl);

$html = new simple_html_dom();
$html->load($str);

	$res=$html->find('div.pro-msg', 0)->outertext;
	echo $res;

То есть Simple HTML DOM даже не видит отдельные части страницы, исполнение кода = пустой странице, ставлю дургой div - все работает. Если парсить всю страницу file_get_html, то естественным образом отображается далеко не весь сайт. Подскажите пожалуйста как можно обойти проблему.

Заранее спасибо большое!

Вопрос задан более трёх лет назад
1916 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Решения вопроса 1

3 комментария

Пригласить эксперта

Ответы на вопрос 1

12 комментариев

asosonko4 @asosonko4 Автор вопроса

Спасибо за ответ! А не подскажите как можно решить данную проблему?

Написано более трёх лет назад
RomkaChev @RomkaChev

При загрузке строятся jsonp-запросы. Вот ссылка на один из них
api.dos.aliexpress.com/aliexpress/data/doQuery.jso...

Написано более трёх лет назад
RomkaChev @RomkaChev

Внутри есть описание полей в удобном формате - цена, название. Скорее всего это то, что вам нужно.

Написано более трёх лет назад
RomkaChev @RomkaChev

Реверсинжинерьте get-параметры и все должно заработать.

Написано более трёх лет назад
asosonko4 @asosonko4 Автор вопроса

буду признателен, если подскажите как вытащить эти данные) Спасибо!

Написано более трёх лет назад
RomkaChev @RomkaChev

Может за вас еще и код написать?)

Написано более трёх лет назад
RomkaChev @RomkaChev

режьте через регеэкспы ненужную обертку в виде вызова promise-callback, а то, что останется (в фигурных скобочках) json_decode-те. В результате получите массив на php

Написано более трёх лет назад
asosonko4 @asosonko4 Автор вопроса

RomkaChev: я написал позже чем увидел обновление с Вашим ответом)

Написано более трёх лет назад
asosonko4 @asosonko4 Автор вопроса

ОГРОМНОЕ СПАСИБО за содержательный ответ. А засчет чего происходит вызов promise-callback? И еще, могу ли просить Вас о каких-нибудь ликах по теме? Чтобы не тратить время на ненужное?

Написано более трёх лет назад
asosonko4 @asosonko4 Автор вопроса

asosonko4: Может есть какие-нибудь библиотеки в помощь?)

Написано более трёх лет назад
RomkaChev @RomkaChev

Ну, на алиэкспрессе за счет того, что код eval-ится в рантайме. У вас в обычном JSON он не сработает.
Да какие линки... Здоровая смекалка и пытливый ум - все, что нужно

Написано более трёх лет назад
asosonko4 @asosonko4 Автор вопроса

RomkaChev: понял, благодарю)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 196 просмотров
6

ответов
PHP

Средний
Как исправить ошибки шаблона WP?
- 1 подписчик
- 14 июл.
- 111 просмотров
1

ответ
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 281 просмотр
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 929 просмотров
3

ответа
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 654 просмотра
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 2 подписчика
- 17 июн.
- 214 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 468 просмотров
1

ответ
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3783 просмотра
12

ответов
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 252 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 197 просмотров
3

ответа
Показать ещё Загружается…

Answer 1 · 2015-12-03 16:43:33

phantomjs
---
Ладно, помогу тебе, а то будешь всю жизнь ajax парсить регулярками :)
1. Создай пустую папку ali
2. Скачай туда композер https://getcomposer.org/composer.phar
3. Cоздай файл composer.json с таким содержимым

{
  "require": {
    "jonnyw/php-phantomjs": "3.*",
    "symfony/dom-crawler": "3.*",
    "symfony/css-selector": "3.*"
  },
  "config": {
    "bin-dir": "bin"
  },
  "scripts": {
    "post-install-cmd": [
      "PhantomInstaller\\Installer::installPhantomJS"
    ],
    "post-update-cmd": [
      "PhantomInstaller\\Installer::installPhantomJS"
    ]
  }
}

4. Выполни
php composer.phar install
5. Создай файл index.php

<?php

require __DIR__ . '/vendor/autoload.php';

$client = \JonnyW\PhantomJs\Client::getInstance();
$request = $client->getMessageFactory()->createRequest('http://superdeals.aliexpress.com/en?spm=2114.11010108.21.1.v65LIL', 'GET');
$response = $client->getMessageFactory()->createResponse();
$client->send($request, $response);
$html = $response->getContent();

$crawler = new \Symfony\Component\DomCrawler\Crawler($html);
$div = $crawler->filter('div.pro-msg');
if($div) {
    echo $div->first()->text();
}

6. Выполни его php index.php и смотри результат

/usr/local/bin/php /Users/evgenij/projects/untitled/index.php

				Today Only
				
					Boy's Coat
					>  Synthetic leather> Motor jacket style> Available in black and red
					share:

    vk
        pinterest
        facebook
        Twinner
        Google+
        Email
    Sign in and share the website for a chance to get Points, which you can then convert to coupons.

					US $9.74
					
						US $32.48 / piece | 70% Off
					
					
					
					
						0486Left					
					Buy Now
					
				
			
Process finished with exit code 0

Answer 2 · 2015-12-03 16:40:48

view-source:superdeals.aliexpress.com/en?spm=2114.11010108.21.... - 1049 строка.
Нужный вам элемент вставляется на страницу посредством JS. Поэтому его и нет в качестве DOM элемента в исходном коде

Почему Simple HTML DOM не находит отдельные объекты?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт