Как сделать «фоновый» парсинг?

Question

elektruver @elektruver

Как сделать «фоновый» парсинг?

Здравствуйте, использую для парсинга «simple html dom» (php), парсить в дальнейшем необходимо будет сайтов 10. При загрузке страницы, проходит довольного много времени пока вся информация подгрузится и страница отобразится. Если парсить 1-2 сайта еще терпимо, но если брать больше — худо дело будет. Я подумал о том, что было бы не плохо парсить данные, с периодичностью раз в 10-20 минут (необходимая мне информация часто обновляется), и сохранять это все в БД.
Подскажите, пожалуйста, как это лучше всего реализовать? Подойдет ли для этой задачи «cron» или существуют более «правильные» методы?

Вопрос задан более трёх лет назад
4203 просмотра

Комментировать

Подписаться 10 Оценить Комментировать

Помогут разобраться в теме Все курсы

Skillbox

Веб-разработчик на PHP

9 месяцев

Далее
Хекслет

PHP-разработчик

10 месяцев

Далее
Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 3

3 комментария

Алексей Сундуков @alekciy

Michail Wowtschuk: Довольно просто, через LPUSH/RPOP, т.к. пихаем данные слева, забираем с права (FIFO). В моем контексте важно обеспечивать не дублирование загрузок, поэтому заполнение очереди всегда в один процесс (гарантируется семафорами).

<?php

namespace alekciy\Yii\crawler;

use
	  alekciy\Yii\crawler\Model\Page
	, alekciy\Yii\crawler\Model\Task
;

/**
 * Загруженной считается страница у которой date_load != null.
 */
class WebCrawlerModule extends \CModule
{

	...

	/**
	 * Заполнить очередь на закачку адресами страниц. Вернет количество страниц поставленных в очередь.
	 */
	public function fillQueue()
	{
		$sem_key = ftok(__FILE__, 'f');
		$sem = sem_get($sem_key, 1);
		sem_acquire($sem);

		// Если очередь не пустая, то нет смыла заполнять её, т.к. это может привести к дублированную данных в ней
		$query_size = $this->_redis->lSize('page_load_query');
		if ( !empty($query_size) ) {
			sem_release($sem);

			return 0;
		}

		$sql = '
			SELECT
				  p.id
				, p.url
				, p.user_agent
			FROM
				' . Page::model()->tableName() . ' AS p
			INNER JOIN
				' . Task::model()->tableName() . ' AS t ON t.id = p.id_task
			WHERE
					p.date_next_try < NOW()
				AND
					p.date_load IS NULL
				AND
					p.load_count < t.max_try
		';
		$db_result = \Yii::app()->db->createCommand($sql)->query();
		while( false !== ($row = $db_result->read()) )
		{
			$this->_redis->lPush('page_load_query', $row);
		}

		sem_release($sem);

		return $db_result->rowCount;
	}


	/**
	 * Мультипотоком загружает страницы до тех пор, пока в очереди есть ссылки.
	 * Гарантирует RPS < 5 на один домен.
	 */
	public function pageLoad($total_download_session = 100)
	{
		// Через семофоры гарантируем, что запустились не более чем в 15 экземплярах
		$sem_key = ftok(__FILE__, 'p');
		$sem = sem_get($sem_key, 15);
		sem_acquire($sem);

		$total_page_load = 0;
		$query_size = $this->_redis->lSize('page_load_query');
		while ( !empty($query_size) )
		{
			// [1- Накапливаем ссылки для мультизагрузки (не более $total_download_session штук)
			$url_list = array();
			$domain_list = array();
			for ($i = 0; $i < $total_download_session; ++$i)
			{
				$query_elm = $this->_redis->rPop('page_load_query');
				if ( empty($query_elm['url']) ) {

					break;
				}
				$url_list[$query_elm['url']] = array(
					CURLOPT_USERAGENT => $query_elm['user_agent'],
				);

				// [3- Гарантируем, что хотя бы в этом процессе в рамках одного вызова mCurl (сейчас это 3-5 сек) не шлем больше 5 запросов на один домен
				$domain = \Url::parse($query_elm['url'], PHP_URL_HOST);
				if ( !array_key_exists($domain, $domain_list) ) {
					$domain_list[$domain] = 0;
				}
				++$domain_list[$domain];
				if ($domain_list[$domain] > 5) {

					break;
				}
				// -3]
			}
			// -1]

			// [2- Загружаем страницы и сохраняем результат
			$download_page = \Yii::app()->mcurl->loadPageList($url_list);
			foreach ($download_page as $page)
			{
				Page::model()->tryPageLoad($page);
				++$total_page_load;
			}
			// -2]

			$query_size = $this->_redis->lSize('page_load_query');
		}

		sem_release($sem);
		return $total_page_load;
	}

	...
}

Написано более трёх лет назад

Алексей Сундуков @alekciy

Michail Wowtschuk: mcurl грузит пачку адресов асинхронно сразу.

Написано более трёх лет назад
Алексей Сундуков @alekciy

Michail Wowtschuk: Книгу? Хм... Стек это стек, что тут можно рекомендовать... А команды redis-а описаны тут: https://redis.io/commands#list Там даже есть очень любопытные позволяющие перекладывать атомарно из очереди в очередь и тут можно поиграться с приоритетами и неудавшимися закачками. Но мне на практике такое пока не потребовалось.

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- вчера
- 144 просмотра
1

ответ
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 375 просмотров
2

ответа
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 357 просмотров
2

ответа
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 384 просмотра
4

ответа
PHP

+1 ещё

Простой
Запрос на создание таблицы в clickhouse Yandex выдает ошибку 400 Bad Request, что не так с моим запросом?
- 1 подписчик
- 13 нояб.
- 238 просмотров
4

ответа
Базы данных

Простой
Как настроить десятки связей и не потеряться в модели (prisma orm)?
- 1 подписчик
- 10 нояб.
- 80 просмотров
0

ответов
PostgreSQL

+1 ещё

Простой
Как вести историю работы с записями во всех таблицах для всех пользователей?
- 2 подписчика
- 08 нояб.
- 248 просмотров
2

ответа
Базы данных

+1 ещё

Средний
Какие методы синхронизации SQL Express и MSSQL Server порекомендуете?
- 3 подписчика
- 03 нояб.
- 185 просмотров
2

ответа
PHP

+2 ещё

Простой
Создание элемента с необычной формой и прозрачным фоном и рамкой?
- 1 подписчик
- 03 нояб.
- 203 просмотра
0

ответов
PHP

+3 ещё

Средний
Apache 2.4 и php 8.4 под windows. Почему не загружаются модули curl, openssl?
- 2 подписчика
- 01 нояб.
- 326 просмотров
3

ответа
Показать ещё Загружается…

PHP-разработчик

FoodSoul • Калининград

от 180 000 до 250 000 ₽

PHP- разработчик (Symfony)

IT-Spirit • Москва

от 230 000 до 320 000 ₽

Backend PHP developer

Office-Expert.kz

от 200 000 до 290 000 ₽

Answer 1 · 2014-05-05 02:27:46

lnked @lnked

cron!

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2014-05-05 17:38:22

Что бы парсер сам запускался подходит cron. Но как я понимаю суть вопроса в другом: "как быстро парсить ХХ сайтов". Мультипоточно. mCurl в помощь.

Для ориентирования по скорости приведу используемую мной схему. У меня почти 42 000 URL на проверке. Перед началом работ они складываются в Redis в виде стека (что бы потом параллельные потоки не скачали одну и туже страницу несколько раз). После чего по cron через bash запускается 10 php скриптов, каждый за раз качает 100 адресов, парсит данные со страницы через DOM, полученные данные пишет в базу. Т.е. кроме скачки страниц тут еще и медленные операции как то построение DOM и запись в РСУБД. На все уходит менее 20 минут, т.е. минимальная скорость около 30 страниц/сек.

Answer 3 · 2014-05-05 10:31:56

В фоне конечно кроном, а так, я бы заменил simple html dom на https://github.com/rmccue/Requests + code.google.com/p/phpquery, вроде было про них и на хабре. Если вы хотя бы поверхностность знакомы с python, то там есть очень удобная штука для парсинга grab

Answer 4 · 2014-05-05 12:44:40

Влад Животнев @inkvizitor68sl

Linux-сисадмин с 8 летним стажем.

Крон и есть самый правильный метод.

Ответ написан более трёх лет назад

Комментировать

Как сделать «фоновый» парсинг?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт