PHP, сравнение скорости парсеров?

Question

Евгений Орлов @Miracl

PHP, сравнение скорости парсеров?

В общем задался вопросом перейти со старенького php парсера simple_html_dom, на более шустрый.
* интересуют только php парсеры.

Гугл, тостер и прочие ресурсы подсказали что для быстродействия лучше использовать phpQuery либо DiDOM
Написал пару парсеров на Query и на DiDOM и чёт увеличения скорости совсем не ощущаю.

Сделал для всех 3х парсеров, один и тот же скрипт.
И.. simple который все ругают за скорость, выполняет его быстрее.

В общем подскажите может я в чём не прав.
Либо посоветуйте реально шустрый php парсер.

Для теста парсил тостер.
1) получаем список вопросов на главной
2) для каждого вопроса открываем страницу с самим вопросом (для нагрузки и проверки скорости)

Simple Html Dom

<meta http-equiv=Content-Type content="text/html;charset=UTF-8">

<?
set_time_limit(0);
$start = microtime(true);

# cURL для парсера
function dlPage($href)
{
	$curl = curl_init();
	curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, FALSE);
	curl_setopt($curl, CURLOPT_HEADER, false);
	curl_setopt($curl, CURLOPT_FOLLOWLOCATION, true);
	curl_setopt($curl, CURLOPT_URL, $href);
	curl_setopt($curl, CURLOPT_REFERER, $href);
	curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
	curl_setopt($curl, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.125 Safari/533.4");
	$str = curl_exec($curl);
	curl_close($curl);

	$dom = new simple_html_dom();
	$dom->load($str);
	return $dom;
}


include_once('simple_html_dom/simple_html_dom.php');
$html=dlPage("https://toster.ru/questions");

foreach($html->find('a[class="question__title-link"]') as $div)
{
	$link=$div->href;
	$name=$div->innertext;
	echo $name." = ".$link."<br>";
	
	$html2=dlPage($link);
}

echo "<hr>".round(microtime(true) - $start, 4);
?>

phpQuery

<meta http-equiv=Content-Type content="text/html;charset=UTF-8">

<?
set_time_limit(0);
$start = microtime(true);

$fake_user_agent = "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201";
ini_set('user_agent', $fake_user_agent);

require('phpQuery/phpQuery-onefile.php');


$html=file_get_contents('https://toster.ru/questions');
$document=phpQuery::newDocument($html);

$hentry=$document->find('a.question__title-link');
foreach ($hentry as $el)
{
	$pq = pq($el);
	
	$name=$pq->text();
	$href=$pq->attr('href');
	echo $name." = $href<br>";
	
	$html2=file_get_contents($href);
	$document2=phpQuery::newDocument($html2);
}

echo "<hr>".round(microtime(true) - $start, 4);
?>

DiDOM

<meta http-equiv=Content-Type content="text/html;charset=UTF-8">

<?
set_time_limit(0);
$start = microtime(true);

# эмуляция того что мы не бот
#$fake_user_agent = "Mozilla/5.0 (X11; Linux i686) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.47 Safari/536.11";
$fake_user_agent = "User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.1; rv:2.2) Gecko/20110201";
ini_set('user_agent', $fake_user_agent);

# подключаем парсер
require_once('DiDom/ClassAttribute.php');
require_once('DiDom/Document.php');
require_once('DiDom/Element.php');
require_once('DiDom/Encoder.php');
require_once('DiDom/Errors.php');
require_once('DiDom/Query.php');
require_once('DiDom/StyleAttribute.php');
require_once('DiDom/Exceptions/InvalidSelectorException.php');
use DiDom\ClassAttribute;
use DiDom\Document;
use DiDom\Element;
use DiDom\Encoder;
use DiDom\Errors;
use DiDom\Query;
use DiDom\StyleAttribute;
use DiDom\Exceptions\InvalidSelectorException;
#########################

$document = new Document('https://toster.ru/questions', true);

$posts = $document->find('.question__title-link');
foreach($posts as $post)
{
	echo $post->text(), " = ".$post->href."<br>";
	$document2=new Document($post->href, true);
}

echo "<hr>".round(microtime(true) - $start, 4);
?>

Вопрос задан более трёх лет назад
769 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Решения вопроса 1

3 комментария

Евгений Орлов @Miracl Автор вопроса

Пользуюсь тем что смог найти...
Да и не всегда есть возможность в базу или на диск.

Написано более трёх лет назад
Петр Васильев @danial72

Евгений Орлов, "Пользуюсь тем что смог найти..." - неверно поняли коммент. У вас бутылочное горлышко не в парсинге, а в загрузке файлов. Тут неважно, что вы нашли, важно то, что вы не организовали предзагрузку материалов для парсинга.
"Да и не всегда есть возможность в базу или на диск." - Где именно нет возможно писать данные в файлы ? Это базовая возможность всех языков, которую не заблокируют ни на одном хостинге.

Написано более трёх лет назад
Максим Тимофеев @webinar Куратор тега PHP

Да и не всегда есть возможность в базу или на диск.

как так-то? Прибегают вооруженные люди и отрезают пальцы?

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+2 ещё

Средний
Как одновременно сделать две записи в разных таблицах в Laravel?
- 1 подписчик
- 22 минуты назад
- 18 просмотров
0

ответов
Парсинг

+1 ещё

Простой
Ошибка в коде парсера Ozon, что не так?
- 1 подписчик
- вчера
- 121 просмотр
0

ответов
PHP

Простой
Почему переменная не перезаписывается?
- 1 подписчик
- вчера
- 116 просмотров
1

ответ
PHP

Простой
Скачивание файла средствами php без ожидания загрузки файла?
- 1 подписчик
- 19 июл.
- 183 просмотра
1

ответ
PHP

+1 ещё

Простой
Почему телеграмм отправляем сразу несколько webhook?
- 2 подписчика
- 18 июл.
- 1170 просмотров
1

ответ
PHP

Простой
Обновление версии PHP с 7.4.33 до 8.3 насколько необходимо?
- 2 подписчика
- 17 июл.
- 1558 просмотров
3

ответа
PHP

Средний
Почему так работает usort?
- 1 подписчик
- 17 июл.
- 194 просмотра
1

ответ
Парсинг

+1 ещё

Простой
Парсинг на Python при помощи tor?
- 1 подписчик
- 16 июл.
- 144 просмотра
3

ответа
PHP

+2 ещё

Простой
Не приходят сообщения с контактной формы, Извините, данные не были переданы?
- 1 подписчик
- 15 июл.
- 239 просмотров
3

ответа
PHP

+2 ещё

Простой
Есть web-сервер на php или nodejs который поддерживает работу с .htaccess?
- 1 подписчик
- 07 июл.
- 1669 просмотров
5

ответов
Показать ещё Загружается…

PHP developer

Marfatech

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

Middle PHP-developer / PHP-разработчик

Wanted • Москва

Answer 1 · 2018-10-03 06:48:21

львинная доля времени уходит на загрузку страниц, поэтому и неудивительно что заметной разницы не наблюдается.

кто ж так парсит? особенно когда нужна скорость.
сначала готовятся/собираются нужные урлы.
затем они выкачиваются в много потоков (например, мультикурлом) и складываются в базу или на диск или ещё куда.
в фоне уже спокойно парсятся документы локально.

Answer 2 · 2018-10-03 08:52:40

В общем подскажите может я в чём не прав.

* В том, что тесты нужно запускать много раз, тысячи хотя бы.
* В том, что в измерении времени парсинга вы учитываете время загрузки страницы.
* В том, что вы учитываете время вывода.
* В том, что учитываете время подготовки окружения (инклуды / реквайры).

То, что у вас сейчас получилось - это просто мусорные данные, буквально ничего не значащие.

PHP, сравнение скорости парсеров?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт