Многопроцессорный парсер теряет ссылки при паринге (selenium+PhantomJS+ProcessPoolExecutor)?

Question

vetal_mart @vetal_mart

Многопроцессорный парсер теряет ссылки при паринге (selenium+PhantomJS+ProcessPoolExecutor)?

Я хочу написать парер для некоторого вебсайта,
который имеет много JS кодов. Для этого я решил выб-
рать связку Selenium+PhantomJS+lxml. Работаю на Python
Парсер необходим достаточно быстрый, что бы обраба-
тывал не менее 1000 ссылок за 1 час. Для этой цели
я решил использовать многопроцессорность. (не ммного-
поточночность - из-за GIL!). Для разбиения на процессы
использовал concurrent.Future.ProcessPoolExecutor.

Проблема в следующем, я например, даю на вход 10
ссылок, на выходе обрабатываетя в лучшем случае 9
(может и 6). Это плохо! Есть еще некоторая зависимость
с увеличением количества потоков увеличивается количество
утеряных ссылок. Первое что я решил сделать, это
проследить где идет обрыв программы, где она перестает
выполняться. (assert в моем случае на сколько я понял
не пойдет, из за многопроцессорности). Тут я определил
что обрыв идет в функции browser.get(l) - не загружает
страницу. Я попробовал добавить time.sleep(x), потом
добавил wait видимый и не видимый. Тоже ничего не из-
менилось. Начал исследовать функцию get() c модуля
selenium, нашел что она перезагружать с того же модуля
функцию execute(), и там я залез в дебри, что мои
знания не позволяют разобраться, да и времени особо нет.
И в то же время, я попробвал запустить в один процесс.
То есть количество процессов = 1. И тоже одна ссылка
потерялась. Это навело на мысль, что возможно дело не
в selenium+phantomJS, а в ProcessPoolExecutor. Я заменил
этот модуль на multiproessing.Pool - и о чудо, ссылки
перестали теряться. Но вместо этого появилась другая
проблема, более 4 потоков не выполняет. Если ставишь
больше, выдает следующую ошибку:

"""
    multiprocessing.pool.RemoteTraceback: 
    Traceback (most recent call last):
    File "/usr/lib/python3.4/multiprocessing/pool.py", line 119, in worker
        result = (True, func(*args, **kwds))
    File "/usr/lib/python3.4/multiprocessing/pool.py", line 44, in mapstar
        return list(map(*args))
    File "interface.py", line 34, in hotline_to_mysql
        w = Parse_hotline().browser_manipulation(link)
    File "/home/water/work/parsing/class_parser/parsing_classes.py", line 352, in browser_manipulation
        browser.get(l)
    File "/usr/local/lib/python3.4/dist-packages/selenium/webdriver/remote/webdriver.py", line 247, in get
        self.execute(Command.GET, {'url': url})
    File "/usr/local/lib/python3.4/dist-packages/selenium/webdriver/remote/webdriver.py", line 233, in execute
        response = self.command_executor.execute(driver_command, params)
    File "/usr/local/lib/python3.4/dist-packages/selenium/webdriver/remote/remote_connection.py", line 401, in execute
        return self._request(command_info[0], url, body=data)
    File "/usr/local/lib/python3.4/dist-packages/selenium/webdriver/remote/remote_connection.py", line 471, in _request
        resp = opener.open(request, timeout=self._timeout)
    File "/usr/lib/python3.4/urllib/request.py", line 463, in open
        response = self._open(req, data)
    File "/usr/lib/python3.4/urllib/request.py", line 481, in _open
        '_open', req)
    File "/usr/lib/python3.4/urllib/request.py", line 441, in _call_chain
        result = func(*args)
    File "/usr/lib/python3.4/urllib/request.py", line 1210, in http_open
        return self.do_open(http.client.HTTPConnection, req)
    File "/usr/lib/python3.4/urllib/request.py", line 1185, in do_open
        r = h.getresponse()
    File "/usr/lib/python3.4/http/client.py", line 1171, in getresponse
        response.begin()
    File "/usr/lib/python3.4/http/client.py", line 351, in begin
        version, status, reason = self._read_status()
    File "/usr/lib/python3.4/http/client.py", line 321, in _read_status
        raise BadStatusLine(line)
    http.client.BadStatusLine: ''

    The above exception was the direct cause of the following exception:

    Traceback (most recent call last):
    File "interface.py", line 69, in <module>
        main()
    File "interface.py", line 63, in main
        executor.map(hotline_to_mysql, link_list)
    File "/usr/lib/python3.4/multiprocessing/pool.py", line 260, in map
        return self._map_async(func, iterable, mapstar, chunksize).get()
    File "/usr/lib/python3.4/multiprocessing/pool.py", line 599, in get
        raise self._value
    http.client.BadStatusLine: ''
    """
    import random
    import time
    import lxml.html as lh
    from selenium import webdriver
    from selenium.webdriver.support.ui import WebDriverWait
    from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
    from multiprocessing import Pool
    from selenium.webdriver.common.keys import Keys
    from concurrent.futures import Future, ProcessPoolExecutor, ThreadPoolExecutor
    AMOUNT_PROCESS = 5

    def parse(h)->list:
        # h - str, html of page
        lxml_ = lh.document_fromstring(h)
        name = lxml_.xpath('/html/body/div[2]/div[7]/div[6]/ul/li[1]/a/@title')
        prices_ = (price.text_content().strip().replace('\xa0', ' ')
                    for price in lxml_.xpath('//*[@id="gotoshop-price"]'))
        markets_ =(market.text_content().strip() for market in
                lxml_.find_class('cell shop-title'))
        wares = [[name[0], market, price] for (market, price)
                in zip(markets_, prices_)]
        return wares


    def browser_manipulation(l):
        #options =  []
        #options.append('--load-images=false')
        #options.append('--proxy={}:{}'.format(host, port))
        #options.append('--proxy-type=http')
        #options.append('--user-agent={}'.format(user_agent)) #тут хедеры рандомно

        dcap = dict(DesiredCapabilities.PHANTOMJS)
        #user agent takes from my config.py
        dcap["phantomjs.page.settings.userAgent"] = (random.choice(USER_AGENT))
        browser = webdriver.PhantomJS(desired_capabilities=dcap)
        #print(browser)
        #print('~~~~~~', l)
        #browser.implicitly_wait(20)
        #browser.set_page_load_timeout(80)
        #time.sleep(2)
        browser.get(l)
        time.sleep(20)
        result = parse(browser.page_source)
        #print('++++++', result[0][0])
        browser.quit()
        return result

    def main():
        #open some file with links

        with open(sys.argv[1], 'r') as f:
            link_list = [i.replace('\n', '') for i in f]
        with Pool(AMOUNT_PROCESS) as executor:
            executor.map(browser_manipulation, link_list)

    if __name__ == '__main__':
        main()

Собственно вопросы: где может быть ошибка? из-за
селениума и фантома, ProcessPoolExecutora, или я где
то код написал не правильно?
Как можно увеличить скорость парсинга что бы 1000
ссылок, за 1 час. ?
Наконец, может есть какой то другой способ паринга
динамических страниц? (само собой на питоне)
Спасибо за ответы.

Вопрос задан более трёх лет назад
1674 просмотра

4 комментария

Подписаться 6 Оценить 4 комментария

Илья @FireGM

Не относится к ответу, но... 1000 ссылок в час? И это считается нагрузкой? У вас там обучение нейронных сетей происходит?

Написано более трёх лет назад
vetal_mart @vetal_mart Автор вопроса

FireGM: нет) банальный парсинг. Я не понял с вашего коментария - это много или мало?
у меня просто парсер страниц - где очень мало ajax"ов - 1000 траниц отрабатывает +\- 12 минут.
А вот на сайте который изобилует ими ~ 17 - 20 секунд страница, это 36 страниц за те же 12 минут...
Я, по правде говоря, гуглением не находил каких то цифр по поводу парсинга через селениум+фантом.
а 1000 страниц за час - это мне сказал сотрудник на работе, что у вроде бы есть проттип парсера этого же сайта, но на NodeJS.. Вот от этой цифры я и отталкиваюсь.

Написано более трёх лет назад
vetal_mart @vetal_mart Автор вопроса

попробовал вместо ProcessPoolExecutor - ThreadPoolExecutor, ссылки терять перестал. И в данном случае, работает примерно на той же скорости что и Process.
Впорос еще актуален, если есть мысли по поводу, буду благодарен.

Написано более трёх лет назад
Emil Revencu @Revencu

Js динамическое изменение сайта: проследите какие запросы генерируются. Может это можно сделать и без PhantomJS, только используя связку LXML+REQUESTS+multithreading.

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Хекслет

Python-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Насколько надёжен шифр от ИИ?
- 1 подписчик
- 7 часов назад
- 165 просмотров
2

ответа
Python

Простой
Какие есть удобные API для генерации картинок через AI?
- 1 подписчик
- вчера
- 135 просмотров
1

ответ
Python

Простой
Дублирование логов в python logging?
- 3 подписчика
- 19 окт.
- 215 просмотров
1

ответ
Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- 16 окт.
- 143 просмотра
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 558 просмотров
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 117 просмотров
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 146 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 546 просмотров
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 149 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 133 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Не относится к ответу, но... 1000 ссылок в час? И это считается нагрузкой? У вас там обучение нейронных сетей происходит?
FireGM: нет) банальный парсинг. Я не понял с вашего коментария - это много или мало?
у меня просто парсер страниц - где очень мало ajax"ов - 1000 траниц отрабатывает +\- 12 минут.
А вот на сайте который изобилует ими ~ 17 - 20 секунд страница, это 36 страниц за те же 12 минут...
Я, по правде говоря, гуглением не находил каких то цифр по поводу парсинга через селениум+фантом.
а 1000 страниц за час - это мне сказал сотрудник на работе, что у вроде бы есть проттип парсера этого же сайта, но на NodeJS.. Вот от этой цифры я и отталкиваюсь.
попробовал вместо ProcessPoolExecutor - ThreadPoolExecutor, ссылки терять перестал. И в данном случае, работает примерно на той же скорости что и Process.
Впорос еще актуален, если есть мысли по поводу, буду благодарен.
Js динамическое изменение сайта: проследите какие запросы генерируются. Может это можно сделать и без PhantomJS, только используя связку LXML+REQUESTS+multithreading.

Answer 1 · 2016-11-12 12:22:29

Наверное уже не очень актуально, но оставлю ремарку для истории. Потеря страниц на парсенге - ситуация штатная. Обилие JS, падения кода при работе с DOM, сетевые проблемы, все может привести к генерации исключения и фейлу получения данных. Так что при разработке стоит сразу заклываться на штатность такой ситуации и просто отлавливать неразобранные страницы и отправлять на повторный парсинг.

1000 страниц за 1 час более чем реальная задача. Сам получал скорость в 1000 за 15 минут. Достигается просто поднятием кластера. Требует много ресурсов (у меня выходило что-то около 10 узлов на каждый до 5Гб ОЗУ).

Многопроцессорный парсер теряет ссылки при паринге (selenium+PhantomJS+ProcessPoolExecutor)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт