Как оптимизовать скорость скрапера?

Question

Andrey_Dolg @Andrey_Dolg

Как оптимизовать скорость скрапера?

Есть скрапер работает через aiohttp. Обработка данных и отправка идёт на соседнем потоке

Примерная схема

Сидит он со следующими вводными 230 прокси серверов и 2 vCPU по 3.3 Ghz.
Нагрузка на прокси сейчас регулируется по параметру средней скорости ответа. Быстрее ответ больше запросов через этот прокси.
Предел скорости парсера это обработка со скоростью 400 запросов в секунду(это всё head в основном).
Я пробовал увеличивать число открытых дескрипторов в несколько раз но эффекта это не дало. Так же пробовал запуск через Pypy но положительный эффект если и был то был минимальным. После всего сделанного видится единственный способ разгрузка нагрузки по разным инстансам.

Основной фрагмент кода

def loop(ids_chunks):
        for i in ids_chunks:
        
            # Start Parsing
            tic = time.perf_counter()
            results, proxy_analize = self.loop.run_until_complete(self.requests_new_items(i, self.proxy_list, self.weight_dict))
            toc = time.perf_counter()
        
            print(f"request take {toc - tic:0.4f} seconds,"
                  f" full  amount of requests={ids_amount * len(available)}"
                  f", ids_chunks amount of requests{len(i) * len(available)}")
        
            print("analize")
        
            self.analize(results, self.extend_id, self.proxy_list) # take less then second
            del results

        self.proxy_balancer(proxy_analize, self.weight_dict)

    async def requests_new_items(self, ids, param_proxy_list, weight_dict):     
    
        connector = aiohttp.TCPConnector(limit=self.tcp_speed,
                                         force_close=True)  # self.tcp_speed)  # One time connection limit
        client_timeout = aiohttp.ClientTimeout(connect=9, total=12) # зависит от размера входящего чанка
    
        len_of_requests = int(str(len(ids) * len(available))) # amount of requests
    
        proxy_optimize = random.choices([i for i in weight_dict.keys() if i in param_proxy_list],
                                        [v for k, v in weight_dict.items() if k in param_proxy_list],
                                        k=len_of_proxy) # weights choices of proxy for each request
        async with aiohttp.ClientSession(connector=connector, timeout=client_timeout) as session:

            responce_list = await asyncio.gather(*[self.fetch_one(session, proxy_optimize[current_index], id_of_url,
                                                                  current_index // len(ids)) for
                                                   current_index, id_of_url in enumerate(ids * len(available))])
        del proxy_optimize
    
        new_item_or_except = [i for i in responce_list if i[0]]
    
        proxy_analize = [(i[1], i[2]) for i in responce_list if not i[0]] # list for calculate average responce time
    
        return new_item_or_except, proxy_analize


    async def fetch_one(self, session, proxy, id_of_url, available_id):
        try:
            await_time = time.perf_counter() # for calculate average responce time
            result = await session.head(f"{areas_of_lock[available_id]}/{id_of_url}",
                                        proxy=f"http://{proxy}",
                                        headers=headers_const)
            if not result.status == 404:
                return (id_of_url, result.status, area_id)
            return (None, proxy, time.perf_counter() - await_time)
        except Exception as err:
            print(err)
            return (id_of_url, proxy)
    
    
    def proxy_balancer(self, proxy_responce, weight_dict):
        weight_dict_average = dict() # dict with full responce time for each proxy
        for i in proxy_responce:
            if not weight_dict_average.get(i[0]):
                weight_dict_average[i[0]] = i[1]
                weight_dict_average[i[0] + '_count'] = 1
            else:
                weight_dict_average[i[0]] += i[1]
                weight_dict_average[i[0] + '_count'] += 1
    
    
        weight_dict_average_values = dict() #  1/(avarage value)
        for i in weight_dict.keys():
            if weight_dict_average.get(i):
                weight_dict_average_values[i] = 1 / (weight_dict_average[i] / weight_dict_average[i + '_count'])
    
        full_avarage_time = sum(weight_dict_average_values.values())
        
        # calculate weights for cohice
        for i in weight_dict.keys():
            if weight_dict_average_values.get(i):
                weight_dict[i] = weight_dict_average_values[i] / full_avarage_time

Вопрос задан более трёх лет назад
181 просмотр

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Как бороться с отступами в сформированном шаблоне Django python?
- 2 подписчика
- час назад
- 42 просмотра
1

ответ
Python

+2 ещё

Простой
Как правильно спроектировать эту функцию?
- 1 подписчик
- 15 часов назад
- 91 просмотр
2

ответа
Python

+1 ещё

Простой
Что не так с моими асинхронными запросами?
- 1 подписчик
- 20 авг.
- 158 просмотров
0

ответов
Python

Простой
Как в питоне генерировать (создавать+заполнять значениями по умолчанию) вложенный словарь так, чтобы вложенные элементы не были копиями друг друга?
- 1 подписчик
- 20 авг.
- 132 просмотра
1

ответ
Python

+1 ещё

Простой
Из-за чего возникает ошибка неверный дескриптор?
- 1 подписчик
- 19 авг.
- 108 просмотров
1

ответ
Python

Простой
Непонимание ошибки yolo8?
- 1 подписчик
- 19 авг.
- 71 просмотр
0

ответов
Python

+1 ещё

Простой
Как грамотно изначально сделать телеграмм бота на Python с помощью aiogram чтобы выдерживал как минимум 10к пользователи и можно было масштабировать?
- 1 подписчик
- 18 авг.
- 239 просмотров
2

ответа
Python

Простой
Как сделать lock для двух асинхронных программ?
- 1 подписчик
- 18 авг.
- 136 просмотров
1

ответ
Python

+1 ещё

Простой
Как создать параметризированный SQL запрос через pyodbc к Mysql?
- нет подписчиков
- 16 авг.
- 147 просмотров
2

ответа
Python

+1 ещё

Простой
Как сделать экранирование символов в Python для SQL запроса?
- 1 подписчик
- 16 авг.
- 146 просмотров
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Dr. Bacon, По коду визуально сам склоняюсь попробовать распараллелить фрагмент с чанками. Просто не до конца разбираюсь как правильно паралелить такой участок. По факту асинхроная функция опроса получает все необходимые данные, но я не совсем уверен в том как параллелится event loop.
Dr. Bacon, Регулировка скорости парсинга через него идёт. Душим количество доступных дескрипторов когда мало информации. =)

Как оптимизовать скорость скрапера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт