Как ускорить парсинг данных с Python/Selenium?

Question

Bjornie @Bjornie

Изучаю Python

Как ускорить парсинг данных с Python/Selenium?

В текущем варианте парсинг осуществляется с chromedriver. Практически имею около 100.000 ссылок, по которым находятся таблицы. У каждой таблицы имеется кнопка "Подробнее", которую сейчас нажимает парсер, копирует содержимое попапа, закрывает его и т.д.
В общем чтобы пропарсить наверное миллион таких строк у меня уйдет месяц непрерывной работы селениума. Ищу способ как-то ускорить это.

Проблема, установил небольшие задержки, которые нужны в аккурат дать подгрузиться попапу и дать ему закрыться, иначе возникают ошибки element is not found.

В общем, спасайте. Подскажите как это реально делается, чтобы ускорить работу хотя бы в 10 раз. (за пол часа он прошел около 400 страниц, спарсив около 2000 строк). Это как пройтись мне самому, нажать на каждую ссылку "Подробнее", но копирование отдать скрипту. Это вряд ли можно назвать полной автоматизацией. тем более с такими объемами (не оцениваю их как большие).

Существуют ли "реальные" бустеры таких операций? Я понимаю, что селениум сделан для тестирования или хотя бы для парсинга страниц, где нет кучи попапов, которые все надо прокликать.

upd: после постинга продолжил гуглить и в одном обсуждении нашел следующее:

javascript tables is exactly why I went with selenium for some sites. However, rather than parsing directly with selenium, I was passing driver.page_source (raw html containing whatever javascript generated) to bs4 and parsing with bs4. I was shocked to find out that this round about method was faster than using selenium.find_element_by_XXXXX methods without ever invoking bs4.

Это действительно так?

Вопрос задан более трёх лет назад
8308 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

3 комментария

Bjornie @Bjornie Автор вопроса

"Требовалось что-то около десяти инстансов PhantomJS"
Можете показать кусок кода (или направить на реализацию подобного решения), о котором вы говорите? Если я запускаю "тупо" 2 одинаковых скрипта (естественно на разный список ссылок), то я вижу, что первый работает нормально, а второй "плетется", иногда подтормаживая, или вообще останавливаясь. Не знаю точно в чем проблема: соединение, настройки удаленного сервера, или какие-то другие факторы.

"Нужно использовать wait()."
Расставил везде где нужно по time.sleep(1) или wait.until. Запинаний не было.

"Наличие/отсутствие попапов не играет роли. Все, что появляется в DOM, все можно отработать.". Это понятно, что все появляется в DOM. Сейчас в моем примере сервер отдает целый шаблон с html-тегами (а не просто массив данных), который при открытии появляется или наоборот удаляется. Все это ведь надо прокликать, так или иначе. Иначе как дать появится данным в дереве?

"Возможно. Но так ли это в вашем контексте ни кто кроме эксперимента не скажет."
В общем я сделал прокликивание ссылок через селениум, а парсинг данных через bs4. Работает, как и обещали - быстрее. В 2 с небольшим раза (т.е. не 5 часов, а 2.7 где-то). Это уже хорошо.

В общем, думаю, что ничего волшебного не бывает, т.к. все зависит от независящих от меня факторов: как быстро сервер отдает информацию, скорость канала и т.д. Единственное решение: максимально быстроработающий код и многопоточность. Насколько я понял. С первым я более-менее разобрался, а вот как увеличить ресурсы - пока нет. Парсинг происходит уже 2-й день.

Написано более трёх лет назад

Алексей Сундуков @alekciy

Bjornie: >Можете показать кусок кода (или направить на реализацию подобного решения), о котором вы говорите?

У меня PHP. На python-е думаю отличий будет не сильно много. Архитектура такая. Есть класс который запускает заданное количество PhantomJS. Поскольку последний может из коробки работать через webdriver, то интансы запускаются в фоном режиме, при этом каждый из них слушает строго свой заданный локальный порт. Кроме того каждый из них запускается строго через прокси (что бы были заходы с разных IP + на случай бана), у каждого своя прокся. После чего приложение когда нужно соединяется с этим фантомами и отправляет в них требуемые задания. Задачи на загрузку складываются в очередь redis, скрипт который заполняет очередь запускается строго в одном экземпляре (гарантируется через семафоры) и заполняет очередь только если она пустая (тогда задачи не дублируются). Это скрипт запускается кроном. Если другой скрипт (назовем его воркер). Он так же пускается по крону каждую минуту. Он забирает из очереди redis одно задание, отправляет его фантому, парсит страницу, складывает результат в базу, завершает работу. Кусок кода (кластер стартует через startWebDriverCluster):

<?php

/**
 * Статусы кластера:
 * start - не работает, но в процессе запуска (через cron)
 * run   - был запущен
 * stop  - был остановлен
 */
class Wd extends CComponent
{
	public
		  $start_port_num = 0
	;

	protected
		  $_proxy_list = array()
	;

	private
		  $_proxy_cursor = 0 // индекс прокси которая считается текущей
	;


	/**
	 * Инициализация соединения с WebDrivers на основании информации о прокси. Возращает объект-соединение,
	 * эмулирующее браузер. Если соединение установить не удалось, вернет false. Таймаут ожидания
	 * установки соединения 10 секунд.
	 *
	 * @param arr $proxy    Информация о прокси аккаунте (содержит порт webdriver-а).
	 * @return (RemoteWebDriver|false)
	 */
	protected function _getDriver($proxy)
	{
		include_once(Yii::app()->basePath . '/lib/php-webdriver/lib/__init__.php');

		// [1- Инициализация окружения
		$webdriver_host = '127.0.1.1';
		$capabilities = array(
			WebDriverCapabilityType::BROWSER_NAME => 'phantomjs',
			'phantomjs.page.settings.userAgent' => 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:25.0) Gecko/20100101 Firefox/25.0',
		);

		try {
			$driver = RemoteWebDriver::create("{$webdriver_host}:{$proxy['wd_port']}", $capabilities, 10000);
		} catch (Exception $e) {

			return false;
		}

		// Задаем размер экрана по умолчанию
		$window = new WebDriverDimension(1024, 768);
		$driver->manage()->window()->setSize($window);
		// -1]

		return $driver;
	}


	/**
	 * По идентификатору драйвера вернет running если связанный с ним браузер запущен,
	 * либо stopped если он остановлен. Данные получаются на основании обращения к прослущиваемому сокету,
	 * поэтому отражают реальную ситуацию.
	 */
	public function getWebDriverStatus($id)
	{
		if ( !array_key_exists($id, $this->_proxy_list) ) {

			throw new \Exception("Incorrect webdriver id #$id\n");
		}

		$proxy = $this->_proxy_list[$id];
		$webdriver_host = '127.0.1.1';

		$errno  = 0;
		$errstr = '';
		$socket = @fsockopen($webdriver_host, $proxy['wd_port'], $errno, $errstr, 5);

		return is_resource($socket)
			? 'running'
			: 'stopped';
	}


	/**
	 * Запускает группу webdriver (phamtomjs). Каждый из них ассоциирован с определенным
	 * прокси. Висят как демоны и слушают каждый свой локальный порт.
	 */
	public function startWebDriverCluster($ttl = 3600)
	{
		$webdriver_host = '127.0.1.1';
		foreach ($this->_proxy_list as $key => $proxy)
		{
			// Не запускаем неактивные webdrive
			if ( !$proxy['is_active'] ) {
				continue;
			}

			// Если порт занят, то не стартуем такой webdrive (т.к. скорее всего он был запущен в прошлый вызов команды)
			$errno = 0;
			$errstr = '';
			$socket = @fsockopen($webdriver_host, $proxy['wd_port'], $errno, $errstr, 5);
			if ( is_resource($socket) ) {
				continue;
			}

			// Если все впорядке, стартуем webdrive
			$cookie_dir = Yii::app()->basePath . '/runtime/cookie/';
			if ( !file_exists($cookie_dir) ) {
				mkdir($cookie_dir);
				chmod($cookie_dir, 0775);
			}
			$cookie_file = $cookie_dir . $key . '.txt';
			// Костыль - часть загрузок фейлится, возможно из-за кук, поэтому тупо грохаем файл с куками
			// хотя это и противоречит первоначальной задумке
			if ( file_exists($cookie_file) ) {
				unlink($cookie_file);
			}

			$cmd = "phantomjs --load-images=false --proxy={$proxy['proxy_ip']}:{$proxy['proxy_port']} --proxy-auth={$proxy['proxy_user']}:{$proxy['proxy_pass']} --ignore-ssl-errors=true --cookies-file={$cookie_file} --webdriver=127.0.1.1:{$proxy['wd_port']} > /dev/null 2>&1 &";
			exec($cmd);

			// Даем время phantomjs-у запуститься
			$is_run = false;
			for ($i = 0; $i < 20; ++$i)
			{
				usleep(500000);
				$socket = @fsockopen($webdriver_host, $proxy['wd_port'], $errno, $errstr, 1);
				if ( is_resource($socket) ) {
					$is_run = true;
					break;
				}
			}

			// Отмечаем как работающий
			$cache_key = 'proxy.' . $key;
			$proxy_info = Yii::app()->redis->get($cache_key);
			// Если данных по прокси в кэше нет, то считаем прокси доступным
			if ( empty($proxy_info) )
			{
				$proxy_info = $proxy;
				$proxy_info['is_active']     = $is_run;
				$proxy_info['wd_port']       = $key + $this->start_port_num; // не используем системные порты
				$proxy_info['last_req_time'] = 0; // время последнего запроса
				$proxy_info['req_count']     = 0; // счетчик удачных попыток
				$proxy_info['status']        = $is_run ? 'running' : 'stopped';
			} else {
				$proxy_info['status'] = $is_run ? 'running' : 'stopped';
			}
			Yii::app()->redis->set($cache_key, $proxy_info);
		}

		$cache_key = 'cluster.status';
		Yii::app()->redis->set($cache_key, 'run', $ttl);
	}


	/**
	 * +
	 * Останавливает все демонты webdrive кластера если вызван без параметров.
	 * Остановит только конкретный драйвер по его $id.
	 *
	 * @param int $id    Идентификатор прокси которую нужно выгрузить.
	 */
	public function stopWebDriverCluster($id = null)
	{
		$webdriver_host = '127.0.1.1';
		foreach ($this->_proxy_list as $key => $proxy)
		{
			if (!is_null($id)
				&& $id != $key
			) {
				continue;
			}

			$errno  = 0;
			$errstr = '';
			$socket = @fsockopen($webdriver_host, $proxy['wd_port'], $errno, $errstr, 5);
			if ( is_resource($socket) )
			{
				$cmd = 'kill -15 `ps ax -o pid,args | grep -v grep | grep phantom | grep \'' . $key . '.txt\' | awk \'{print $1}\'`';
				exec($cmd);
			}
		}

		if ( is_null($id) ) {
			$cache_key = 'cluster.status';
			Yii::app()->redis->delete($cache_key);
		}
	}


	/**
	 * Вернет webdrive который можно использовать для запросов. При заданном $id прокси
	 * вернет связанный с ней webdrive (проверка на факт активности прокси не выполняется).
	 * В случае ошибок (свободных webdrive нет, заданный webdrive деактивирован/выключен)
	 * вернет null.
	 */
	public function getDriver($id = null)
	{
		$proxy = is_null($id)
			? $this->_getActiveProxyInfo($id)
			: $this->getProxyInfoById($id);

		// Убеждаемся, что заданный драйвер запущен и работает, если нужно, пытается его запустить
		$status = $this->getWebDriverStatus($id);
		if ('stopped' == $status) {
			$is_run = $this->activateProxy($id);
			if ( !$is_run ) {

				return null;
			}
		}

		if ( !empty($proxy) )
		{
			$driver = $this->_getDriver($proxy);
			if ( !empty($driver) )
			{

				return array($id => $driver);
			}
		}

		return null;
	}

...

}

Написано более трёх лет назад

Bjornie @Bjornie Автор вопроса

Алексей Сундуков Алексей благодарю за подробное пояснение в комментариях и за вышеуказанный пример. Буду разбираться, т.к. здесь используются технологии, с которыми еще не знаком (redis, например). Но описание процесса работы выше было очень полезным. Спасибо!

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

10 комментариев

qlkvg @qlkvg

плюсую. если в фантоме выключить картинки, может быть еще чуть быстрее. ну и даже если таблицы получаются аяксом, всегда можно посмотреть, что за запросы уходят от браузера. может там все обходится одним post-запросом и это можно повторить urllib'ом или requests'ом. тогда будет на порядок быстрее, чем с селениумом.

Написано более трёх лет назад
Алексей Сундуков @alekciy

Артем Кисленко: PhantomJS не панацея вовсе. Парсил раз форум на phpBB, там таблица меньше, чем на 100 строк. Так данные в приложении приходилось ждать почти минуту.

Написано более трёх лет назад
Артем Кисленко @webwork

Алексей Сундуков: Я написал, что это ускорит переход по страницам, насчет парсинга DOM ничего не могу сказать, т.к. никогда не стояло такой задачи, возможно, вы правы.

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

Артем Кисленко
Данных нет в HTML, запросы 100% AJAX.
Попробовал PhantomJS - работает еще медленнее, чем Chrome.
Имитировать запросы нет возможности, я уже об этом писал.

Написано более трёх лет назад
Артем Кисленко @webwork

Bjornie: Я так скажу, исходя из своего опыта, парсится все, начиная от всяких соц. сетей, заканчиваю банковскими сайтами и сайтами полностью написанными на ajax. Эмуляция js-движка будет работать в любом случае долго.
Ну если совсем все плохо и вы не знаете, что и как делать, я могу посоветовать
1. Заспускать chrome в консольном режиме (без gui)
2. Использовать несколько потоков\процессов (каждый хром - один поток). Сделали 10 потоков, увеличили скорость в десять раз (если не вдаваться в подробности).

Написано более трёх лет назад
Алексей Сундуков @alekciy

Bjornie: >Имитировать запросы нет возможности, я уже об этом писал
Всегда есть. Даже если в каждом запросе есть уникальный ID. Другой вопрос, что порой реверс инжениринг по трудозатратам получается сильно дороже, чем кластер из браузеров.

Артем Кисленко: >Эмуляция js-движка
Долго работает не интерпретатор JS, а рендеринг с полное построение DOM. К примеру, использование вместо headless браузера обычного SpiderMonkey (или V8) может дать десятикратное увеличение скорости парсинга.

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

Алексей Сундуков: спасибо за подробное пояснение (здесь и в ответе ниже). "реверс инжениринг по трудозатратам получается сильно дороже" мне пока вообще не понятно как это сделать в моем случае. Думаю вы правы.

"использование вместо headless браузера обычного SpiderMonkey (или V8)"
не понял, я должен использовать Mozilla, вместо Chrome в качестве драйвера?

Написано более трёх лет назад
Алексей Сундуков @alekciy

Bjornie: >не понял, я должен использовать Mozilla, вместо Chrome в качестве драйвера
Нет. Не использовать headless браузер и webdriver вообще (ввиду долгого времени работы). А использовать чисто только движок JS (он не умеет строить DOM страницы и не может их рендерить) который только что и может, так это тупо выполнять JS. Причем ему даже нельзя дать задание "выполни весь JS с этой страницы", т.к. "страницы" для него вообще нет. Нужно руками подгрузить в него JS. Руками написать немного JS который "пофиксит" отсутствие DOM. В общем это довольно замороченный процесс и его приходится использовать там, где скорости работы кластера ниже, чем требуется. Обычно все упирается в железо. Несмотря на всю замороченность процесса результат можно получать за 1-2 дня. Что по финансам перекрывает требование "для обеспечения требуемой скорости парсинга нам нужно Х серверов с 16 ядрами и 32 Гб ОЗУ".

Мне смутно припоминается, что в python были какие-то готовые решения которые могли для страницы под капотом сами выполнять JS страницы. Но точнее не сориентирую (+ уверен, что ручная допилка все равно потребуется) и есть смысл обратиться к сообществу питонистов.

Написано более трёх лет назад
Bjornie @Bjornie Автор вопроса

Алексей Сундуков: возможно вы говорите об этом? https://github.com/scrapinghub/splash как раз нашел его в процессе гуглинга, но пока не осилил.

Написано более трёх лет назад
Алексей Сундуков @alekciy

Bjornie: Очень похоже. Хотя я вроде в свое время натыкался на Scrapy.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 165 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 113 просмотров
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 97 просмотров
1

ответ
Парсинг

Средний
Вся сложность парсинга Авито. Как это сделать правильно?
- 1 подписчик
- 26 нояб.
- 204 просмотра
1

ответ
Selenium

Средний
Как пройти ReCaptcha V3?
- 1 подписчик
- 26 нояб.
- 105 просмотров
0

ответов
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 94 просмотра
0

ответов
Telegram

+1 ещё

Простой
Как спарсить подписчиков своего телеграм канала?
- 2 подписчика
- 20 нояб.
- 437 просмотров
2

ответа
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 243 просмотра
1

ответ
Веб-разработка

+1 ещё

Простой
Каким образом правильно сделать скрипт?
- 2 подписчика
- 15 нояб.
- 369 просмотров
2

ответа
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 280 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2016-12-17 13:44:36

На 100к ссылок, особенно если требуется их обходить достаточно часто (или на сервере ресурсов мало), есть уже смысл задумать о более кастомных (читай, напилить руками низкоуровневый механизм), но более быстрых механизмах. Как-то запросы на получение AJAX данных через curl. Или если данные получаться в рамтайме на клиенте через замудренный JS, то применить SpiderMonkey, V8 либо другие серверных движки.

В общем чтобы пропарсить наверное миллион таких строк у меня уйдет месяц непрерывной работы селениума

Делал на кластере из PhantomJS парсер который должен был за 15 минут обходит чуть больше 1к страниц и парсить из них разные хитрые таблички. Требовалось что-то около десяти инстансов PhantomJS, 20 Гб ОЗУ и 16 ядер ЦПУ. На таком кластере 100к за сутки переварит реально.
Когда требование по времени ужесточилось до 5 минут, напилил на SpiderMonkey.

element is not found

Нужно использовать wait(). Тогда дальше код будет выполняться когда на странице появиться нужный элемент.

где нет кучи попапов, которые все надо прокликать

Наличие/отсутствие попапов не играет роли. Все, что появляется в DOM, все можно отработать. Регулярно тягаю данные с яндекс ворстата. Много там разных хитрых обработчиков. Но все силами PhantomJS-а через webdriver решается рано или поздно.

Это действительно так?

Возможно. Но так ли это в вашем контексте ни кто кроме эксперимента не скажет. Т.е. берем данное утверждение и проверяем в своей задаче парсинга.

Answer 2 · 2016-12-17 05:14:59

Вместо chromedriver вы можете использовать phantomjs, это ускорит переход по страницам.
Но я практически на сто процентов уверен, что вам не нужен интерпретатор javascript, чтобы спарсить необходимые данные.
Если открывается popup без подгрузки данных (без ajax), значит данные находятся где-то в html и их можно спарить.
Если с подгрузкой, тогда нужно делать запрос напрямую (на тот url откуда загружаются данные).

Как ускорить парсинг данных с Python/Selenium?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт