Оптимально ли я парсю данные?

Question

driverx18 @driverx18

Оптимально ли я парсю данные?

Суть такая, приходит запрос боту ВК, бот связывается с нужной страничкой через CURL, и через PHPQuery вытаскивает текст (он маленький, 2-3 строчки), и кидает этот текст человеку ВК. Но кидается этот текст почему то очень долго..
Вот тут я в функции обращаюсь к нужному сайту

$ch = curl_init($url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36');
    $res = curl_exec($ch);
    return $res;

Функция парсинга:

function parse($val) {
   global $number;
   $document = phpQuery::newDocument(curlit($val, $number)); // тут передаю страницу на которую заходить
   $findelement = $document->find('.ml p'); // ищу в классе .ml параграф (это единственный текст в том классе)
   $text; // переменная для текста
   foreach($findelement as $element) {
      $pq = pq($element);
      $text = $pq->text(); // сюда записываю ту строчку текста
   }
  return $text;
}

Правильно ли я делаю, особенно с PHPQuery? Может это как то я по сложному и ресурсозатратному делаю? Просто ответ приходит в течение секунд 5-10, что действительно долго. Очень прошу помощи

Вопрос задан более трёх лет назад
337 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Stepik

PHP (pro)

2 недели

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 3

8 комментариев

driverx18 @driverx18 Автор вопроса

очень по нубски спрошу, но спрошу (глупо будет не спросить), как лучше это замерить? я не замерял никогда просто

Написано более трёх лет назад

D3lphi @D3lphi

driverx18:

$start = microtime(true);

// Кусок код, скорость которого нужно замерить

$time = microtime(true) - $start;
// Далее, либо выводите это значение ($time) на экран, либо пишите его в файл. Или вообще делаете с ним всё, что угодно.

Написано более трёх лет назад

driverx18 @driverx18 Автор вопроса

D3lphi: выдавало 1.17 результат, функции parse(), но функция parse() себя включает еще и функцию curlIt(), то бишь и связывание с тем сайтом, и парсинг с него занимает 1.17 сек как я понимаю

Написано более трёх лет назад
driverx18 @driverx18 Автор вопроса

D3lphi: и сделал функцию test(),
function test() {
$start = microtime(true);
file_get_contents('тут вставил юрл');
$time = microtime(true) - $start;
return $time;
}

написало ответ 1.2433850765228, не могу понять, норм или не норм?

Написано более трёх лет назад
D3lphi @D3lphi

driverx18:
не могу понять, норм или не норм?

А чего тут ненормального? Вполне может быть такое время получения страницы.

Написано более трёх лет назад
driverx18 @driverx18 Автор вопроса

D3lphi: я просто не знаю каким должен быть по скорости запрос, и не знаю вот тот результат это много или норма, может вы знаете?

Написано более трёх лет назад
D3lphi @D3lphi

driverx18: Это немало. Но вы то на это как сможете повлиять? Правильно, никак. Если только причина не в вашем канале связи.

Написано более трёх лет назад

driverx18 @driverx18 Автор вопроса

D3lphi: и сейчас сделал такой финт:

function test() {
    $start = microtime(true);
    file_get_contents('юрл');
    $time = microtime(true) - $start;
    $res1 = $time;

    $start2 = microtime(true);
    $ch = curl_init('юрл');
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36');
    $res = curl_exec($ch);
    $time2 = microtime(true) - $start2;
    $res2 = $time2;
    return $time . " and "  . $res2;
}

результат вообще 6.15 и 3.24...

Написано более трёх лет назад

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 541 просмотр
2

ответа
PHP

Средний
Как сделать что бы переменная avatar($ank['id']); не конфликтовала с другим файлом?
- 1 подписчик
- 17 июн.
- 198 просмотров
2

ответа
PHP

+2 ещё

Средний
Как решить проблему с smtp сервером?
- 1 подписчик
- 03 июн.
- 441 просмотр
1

ответ
PHP

Средний
Как составить регулярное выражение?
- 1 подписчик
- 31 мая
- 242 просмотра
2

ответа
PHP

+2 ещё

Простой
Как настроить php_curl для php8 под windows?
- 1 подписчик
- 28 мая
- 190 просмотров
3

ответа
PHP

Простой
При правильном вводе каптчи не прегистрируется как исправить?
- 1 подписчик
- 24 мая
- 153 просмотра
2

ответа
JavaScript

+2 ещё

Средний
Стоит ли переносить логику работающего онлайн-калькулятора с JS на PHP ради защиты формул от копирования?
- 3 подписчика
- 18 мая
- 2461 просмотр
8

ответов
PHP

+1 ещё

Простой
Как получить список файлов из локальной папки?
- 1 подписчик
- 11 мая
- 338 просмотров
6

ответов
PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 182 просмотра
1

ответ
PHP

Простой
PDO не видит внутри функции?
- 1 подписчик
- 25 апр.
- 250 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2017-08-04 16:59:04

Задержка не из-за того, что вы не так парсите данные, а из-за cURL запроса. Уверен, что это он выполняется так долго. И это от вас не зависит. Собственно, что мешает взять и измерить время выполнения того или иного куска кода?

Answer 2 · 2017-08-04 17:00:41

Так определите какой этап занимает больше времени - на этапе curl или на этапе phpQuery.
Кроме этого я бы заменил phpQuery на чистый xpath.
Плюс на всякий случай добавил бы
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
Но это не для скорости.

Answer 3 · 2017-08-04 18:02:08

лучше получите html блок текста через регулярку в $parseText
и обрамляем его в html теги

$parseText= '<html><body>'. $parseText .'</body></html> ';

и запихиваем все phpQuery

парсеру будет легче построить дерево и найти нужный вам селектор.

или попробуйте nokogiri отличается тем что не строит дерево, а рекурсивно проходит по всем node аналогично работает как и XmlReader

Оптимально ли я парсю данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт