Почему работа моего парсера забирает все ресурсы и вырубает сервер?

Question

Элизабет Лоуренс @Svoeobraznaya

Почему работа моего парсера забирает все ресурсы и вырубает сервер?

Здравствуйте. Помогите, пожалуйста, я запускаю свой парсер по крон, забираю им некоторую информацию с сайта моего поставщика и обрабатываю ее. Парсер запускается-то всего на 500 страниц товаров, у меня таких аж 8000 тысяч, но даже на 500 артикулов парсер съедает все ресурсы и приводит сервер в нерабочее состояние, к нему не подключится по ssh и все сайты отдают 500-сотые ошибки. Я понимаю, что скорее всего дело в том, что мой парсер не оптимизирован, так как сама я не разбираюсь в этом пока что, прошу совета, что тут следует переписать? Парсер сначала авторизуется на сайте поставщика, потому что только так видны остатки, а потом от имени авторизованного пользователя собирает информацию. Как соберет формирует запрос на обновление базы данных, запросы скидывает в массив, только в конце работы делается одно подключение к БД и выполняется запрос на обновление. У меня 1 Гб ОЗУ на сервере.

ini_set('max_execution_time', '10000');
set_time_limit(0);
ini_set('memory_limit', '768M');
ignore_user_abort(true);

require_once 'vendor/autoload.php';
require_once 'phpquery/phpQuery/phpQuery.php';

//УРЛ для выполнения авторизации
$url_auth = 'http://...';

//Заданный мною массив, где ключ это артикул товара, а значение его product_id в моем магазине
$massiv = [
"артикул поставщика" => "мой product_id",
...
]

//Объявляю массивы, которые могут быть заполнены впоследствии.
$existart = []; $existartstatus = []; $existartstatus2 = []; $notupdated = [];

//Создаю файлы, в которые буду записывать нужные мне значения по ходу работы
$file_result = 'not_added.txt'; if (file_exists($file_result)) unlink($file_result);
$file_result2 = 'empty.txt'; if (file_exists($file_result2)) unlink($file_result2);
$file_result3 = 'not_updated.txt'; if (file_exists($file_result3)) unlink($file_result3);

//Данная функция будет вызываться для парсинга каждой отдельной страницы товара для того, что авторизованным забрать содержимое страницы
function get_content($url) {
	$ch = curl_init($url);
	curl_setopt ($ch, CURLOPT_HEADER, 0);
	curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, true);
	curl_setopt ($ch, CURLOPT_RETURNTRANSFER, true);
	curl_setopt ($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)");
	curl_setopt ($ch, CURLOPT_SSL_VERIFYPEER, false);
	curl_setopt ($ch, CURLOPT_SSL_VERIFYHOST, false);
	curl_setopt ($ch, CURLOPT_POST, true);
	curl_setopt ($ch, CURLOPT_POSTFIELDS, array(
		'login' => '###',
		'pass' => '###',
	));
	curl_setopt ($ch, CURLOPT_COOKIEJAR, __DIR__ . '/cook.txt');
	curl_setopt ($ch, CURLOPT_COOKIEFILE, __DIR__ . '/cook.txt');
	curl_setopt ($ch, CURLOPT_TIMEOUT, 3000);
	curl_setopt ($ch, CURLOPT_CONNECTTIMEOUT, 300);
	$res = curl_exec($ch);
	curl_close($ch);
	return $res;
}

$merged = "это массив со ссылками на карточки товаров, по которым нужно пройтись"

//Главная функция, отрабатывающая для каждой ссылки
function foreach_parser() {
	global $merged; global $massiv; global $existart; global $existartstatus; global $existartstatus2; global $notupdated; global $file_result; global $file_result2; global $file_result3;
	foreach ($merged as $page){
		$file = get_content($page);
		$doc = phpQuery::newDocument($file);
		$doc = pq($doc);

			$art = $doc->find('#r div.x div.xx div.xxx')->text();
			$art = str_replace("/"," ",$art);
			$art = trim($art);
					
			/* Тут еще выполняется несколько операций по нахождению значений и их обработки. Определяются переменные $stock, $status и прочие */
			
			//Проверяю содержится ли в моем заранее заданном массиве элемент с ключом, равным данному артикулу, если да, то для него забирается его значение		
			if (isset($massiv[$art])) {
				if ($status == "Preorder") {
					$value = $massiv[$art];
					$existart[] = "WHEN product_id = ".$value." THEN ".$stock;
					$existartstatus[] = "WHEN product_id = ".$value." THEN 'Под заказ'";
					$existartstatus2[] = "WHEN product_id = ".$value." THEN 24";					
				} else {
					$value = $massiv[$art];
					$existart[] = "WHEN product_id = ".$value." THEN ".$stock;				
				}
				$value2 = $massiv[$art];
				$notupdated[] = $value2;
			} else {
				//Элемента массива с таким ключом не найдено, значит записываем данный артикул в файлик
				$message = $art.PHP_EOL;
				file_put_contents($file_result, $message, FILE_APPEND);
			}
			
			echo $art." обработан! ";		
		$i++;
	}
	
	//Если мои массивы заполнились каким-то данными, тогда я сливаю их элементы в единую строку
	if($existart) {$existart_oneline = implode(" ", $existart);}
	if($existartstatus) {$existartstatus_oneline = implode(" ", $existartstatus);}
	if($existartstatus2) {$existartstatus2_oneline = implode(" ", $existartstatus2);}
	$massiv_onlyid = implode(",", $massiv);
	
	//Сравниваю изначально заданный мною массив с полученным в результате парсинга массивом для того, чтобы найти те товары, которые у меня в массиве (на сайте) есть, а в процессе работы парсинга не были задействованы, так я понимаю, какие остатки у меня не обновились.
	$mas_notupdated = array_diff($massiv, $notupdated);
	if ($mas_notupdated) { $mas_notupdated_txt = implode('`', $mas_notupdated); file_put_contents($file_result3, $mas_notupdated_txt); }
	
	//Подключаюсь к базе данных и выполняю запросы на обновление остатков и при необходимости других полей
	$linkmysql = mysqli_connect('localhost', 'xxx', 'xxx', 'xxx');	
	
	if (!$linkmysql) {
		$sqlconnecterror = "Ошибка: Невозможно установить соединение с MySQL.";
		exit;
	}
	if ($linkmysql) {		
		if($existart) {
			Первый запрос на обновление информации
		}
		if($existartstatus) {
			Второй запрос на обновление информации
		}

		mysqli_close($linkmysql);
	}
		
	phpQuery::unloadDocuments();	

}

$data = get_content($url_auth);
foreach_parser();

Парсер грузит оперативку до 99,9% и всё, дальше ничего не работает. Я поставила ему memory_limit', '512M', но он все равно забирает всю оперативную память. Как ему не позволять забирать все ресурсы?

Вопрос задан более трёх лет назад
328 просмотров

7 комментариев

Подписаться 1 Простой 7 комментариев

RidgeA @RidgeA

Не уверен, что кто-то будет разбирать код.
Надо анализировать как падает и что происходит.

Как соберет формирует запрос на обновление базы данных, запросы скидывает в массив, только в конце работы делается одно подключение к БД и выполняется запрос на обновление.

Скорее всего не хватает памяти, надо попробовать скидывать в базу батчами

Написано более трёх лет назад
Элизабет Лоуренс @Svoeobraznaya Автор вопроса

RidgeA, ошибка выпадает out of memory и либо killed получаю, либо сервер висит, только перезагрузка восстанавливает его работу. В действительности с базой я начинаю как-то взаимодействовать только в самом конце, я запросы не в базу скидываю, а в массив укладываю и лишь в конце работы, посылаю 1-2 запроса к базе. Мой парсер до этого момента даже не доходит, он раньше получает нехватку памяти.

Написано более трёх лет назад
Konata Izumi @Konata69lol

Элизабет Лоуренс, Меньшее кол-во страниц брать за раз пробовали? PHP очень прожорлив на память.
Ну и оптимизировать код, чтобы было как можно меньше промежуточных переменных.

Написано более трёх лет назад
Элизабет Лоуренс @Svoeobraznaya Автор вопроса

Konata Izumi, Да, можно взять меньшее, отработает кое-как, просто если мне надо 8000 артикулов спарсить, то выйдет огромное количество таких вот скриптов, если брать штук по 200-300. Вот я как раз и спрашиваю что тут вернее всего было б оптимизировать, в вопросе оптимизации я как раз полный чайник. То есть важно переменных как можно меньше иметь? Попробую посмотреть без чего могу обойтись, конечно.

Написано более трёх лет назад
Konata Izumi @Konata69lol

Элизабет Лоуренс, Не то, чтобы переменных, а количество данных в них. Если это строка, то меньше размер текста. Если массив - меньше элементов. Еще память может течь, если бездумно плодить копии больших массивов, например.

Желательно подобную обработку делать меньшими порциями. И как писали ниже, использовать для этого очереди.

Написано более трёх лет назад
Олег Ас @eXcNightRider

Элизабет Лоуренс, Когда цикл работает с массивами, при попытке изменить исходный массив, неявно создается копия структуры массива (но не копия значений), которая и становится доступной по завершению цикла, а исходная структура уничтожается. Если вы присваиваете новые значения исходному массиву, то они не будут заменены сразу, а для них будет выделена отдельная память, которая будет возвращена по выходу из цикла.
Это может привести к значительному потреблению памяти на время работы цикла с большими массивами данных.
Совет: вместо file_put_contents используйте
fopen () …. fwrite () … fclose ()
Совет 2: очищайте переменные с помощью unset()
Совет 3: используйте ссылочную переменную в цикле - foreach( $x as &$y)
Совет 4: чтобы найти места утечек, в конце выполнения функций и\или циклов используйте memory_get_peak_usage () - в документации здесь есть отличные примеры кода

Написано более трёх лет назад
RidgeA @RidgeA

out of memory и либо killed
- не хватает памяти что бы хранить массив из 8000 спаршеных значений
Если падает до 500-та то не сложным математическим действием можно посчитать что для работы скрипта надо как минимум 16 гб оперативки (можно у swap-a, конечно одолжнить, если скорость не важна)

Нужно изменить скрипт таким образом, что бы он записывал данные в базу периодически и не накапливал результат

От того что данные в базу будут писаться 800 раз, скажем, ничего страшного ен будет (по 100 записей в одном батче)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

4 комментария

Влад Малиничев @malinichev

Действительно, лучше сделать multicurl.

Написано более трёх лет назад
Элизабет Лоуренс @Svoeobraznaya Автор вопроса

Влад Малиничев, делала вчера мультикурл, но он мне выдал не все артикулы, какие были в списке, а лишь некоторые. То есть я совсем не поняла, почему он пропустил все остальное.

Написано более трёх лет назад
Влад Малиничев @malinichev

Элизабет Лоуренс, ну надо разбираться в причине...
Вообще, по хорошему, тут бы очередь организовать, она в любом случае не помешает.
А если делать из рук вон плохо - то можно поставить set_time_limit(0) и между итерациями sleep на несколько секунд

Написано более трёх лет назад
Влад Малиничев @malinichev

Элизабет Лоуренс, Также, вы подключаетесь к MySQL и отключаетесь прямо в цикле, почему-бы не вынести это за пределы цикла?
1. Подключились
2. Цикл и сохранение
3. Отключились

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
Ошибка в php, как исправить?
- 1 подписчик
- 9 часов назад
- 57 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 171 просмотр
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 392 просмотра
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 362 просмотра
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 397 просмотров
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 241 просмотр
4

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 204 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 330 просмотров
3

ответа
PHP

Простой
Как объединить в один код 2 строчки $array[$key]?
- 2 подписчика
- 31 окт.
- 294 просмотра
2

ответа
PHP

+1 ещё

Простой
Как оптимально подтягивать og:img для списка статей с разных сайтов?
- 1 подписчик
- 27 окт.
- 151 просмотр
1

ответ
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

PHP dev (Symfony, RabbitMQ)

IT ATLAS • Москва

от 250 000 до 500 000 ₽

Не уверен, что кто-то будет разбирать код.
Надо анализировать как падает и что происходит.

Как соберет формирует запрос на обновление базы данных, запросы скидывает в массив, только в конце работы делается одно подключение к БД и выполняется запрос на обновление.

Скорее всего не хватает памяти, надо попробовать скидывать в базу батчами
RidgeA, ошибка выпадает out of memory и либо killed получаю, либо сервер висит, только перезагрузка восстанавливает его работу. В действительности с базой я начинаю как-то взаимодействовать только в самом конце, я запросы не в базу скидываю, а в массив укладываю и лишь в конце работы, посылаю 1-2 запроса к базе. Мой парсер до этого момента даже не доходит, он раньше получает нехватку памяти.
Элизабет Лоуренс, Меньшее кол-во страниц брать за раз пробовали? PHP очень прожорлив на память.
Ну и оптимизировать код, чтобы было как можно меньше промежуточных переменных.
Konata Izumi, Да, можно взять меньшее, отработает кое-как, просто если мне надо 8000 артикулов спарсить, то выйдет огромное количество таких вот скриптов, если брать штук по 200-300. Вот я как раз и спрашиваю что тут вернее всего было б оптимизировать, в вопросе оптимизации я как раз полный чайник. То есть важно переменных как можно меньше иметь? Попробую посмотреть без чего могу обойтись, конечно.
Элизабет Лоуренс, Не то, чтобы переменных, а количество данных в них. Если это строка, то меньше размер текста. Если массив - меньше элементов. Еще память может течь, если бездумно плодить копии больших массивов, например.

Желательно подобную обработку делать меньшими порциями. И как писали ниже, использовать для этого очереди.
Элизабет Лоуренс, Когда цикл работает с массивами, при попытке изменить исходный массив, неявно создается копия структуры массива (но не копия значений), которая и становится доступной по завершению цикла, а исходная структура уничтожается. Если вы присваиваете новые значения исходному массиву, то они не будут заменены сразу, а для них будет выделена отдельная память, которая будет возвращена по выходу из цикла.
Это может привести к значительному потреблению памяти на время работы цикла с большими массивами данных.
Совет: вместо file_put_contents используйте
fopen () …. fwrite () … fclose ()
Совет 2: очищайте переменные с помощью unset()
Совет 3: используйте ссылочную переменную в цикле - foreach( $x as &$y)
Совет 4: чтобы найти места утечек, в конце выполнения функций и\или циклов используйте memory_get_peak_usage () - в документации здесь есть отличные примеры кода
out of memory и либо killed
- не хватает памяти что бы хранить массив из 8000 спаршеных значений
Если падает до 500-та то не сложным математическим действием можно посчитать что для работы скрипта надо как минимум 16 гб оперативки (можно у swap-a, конечно одолжнить, если скорость не важна)

Нужно изменить скрипт таким образом, что бы он записывал данные в базу периодически и не накапливал результат

От того что данные в базу будут писаться 800 раз, скажем, ничего страшного ен будет (по 100 записей в одном батче)

Answer 1 · 2019-04-26 10:39:28

У вас в цикле стоит запрос curl. Когда вы делаете запрос, ответ от сервера может прийти, а может и нет, а память тем временем выделяется. Копайте в сторону асинхронного запроса curl. Я думаю здесь проблема.

Answer 2 · 2019-04-26 10:35:11

$doc = phpQuery::newDocument($file);
это дерьмо лучше заменить нативным DOMDocument, скорее всего где-то там память и пропадает

Почему работа моего парсера забирает все ресурсы и вырубает сервер?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт