Как увеличить скорость скрипта tornado python?

Question

rodion-dev @rodion-dev

Как увеличить скорость скрипта tornado python?

В наличии вот такой код на python
работает одинаково, что 500 асинхронных запросов, что 15000
определяется переменной "process_max"
нужно увеличить скорость до максимума.
судя по скорости которую выдает статистика скорость там около 10-20 запросов конкурентных.

import tornado
from tornado import httpclient
from tornado import gen
from functools import partial
import Queue
from tornado.httpclient import AsyncHTTPClient
import os
from time import gmtime, strftime
import json
from urlparse import urlparse

gloop = tornado.ioloop.IOLoop.instance()
qinput = Queue.Queue()
process_count = 0

process_max = 15000    # maximum count of query for one moment

#create tmp dir if not exists
dirname = "tmp"
if not os.path.exists(dirname):
    os.makedirs(dirname)

#fill queue
f = open('100000_hostsList.lst')
line = f.readline()
items = 0
hosts = []
while line:
    qinput.put("http://"+line)
    line = f.readline()

f.close()


def data_process(data, url, headers):
    data = {'url': url, 'data': data, 'headers': headers}

    dirname = "tmp/" + strftime("%Y-%m-%d_%H", gmtime())
    if not os.path.exists(dirname):
        os.makedirs(dirname)

    f = file(dirname + "/" + urlparse(url).hostname, "w+")
    f.write(json.dumps(data))
    f.flush()
    f.close()

@gen.engine
def process(url):
    global process_count, worker
    try:
        http_client = httpclient.AsyncHTTPClient()

        request = tornado.httpclient.HTTPRequest(url=str(url), connect_timeout=5.0, request_timeout=5.0, follow_redirects=True)
        response = yield tornado.gen.Task(http_client.fetch, request)

        if response.error: raise Exception(response.error)
        data_process(response.body, url, dict(response.headers))
    except Exception as e:
        print e
    process_count -= 1
    gloop.add_callback(worker)

def worker():
    global gloop, process_count, process_max
    print '# %d / %d (%d)' % (process_count, process_max, qinput.qsize())
    while process_count < process_max:
        if qinput.empty(): break
        url = qinput.get_nowait()
        process_count += 1
        gloop.add_callback(partial(process, url))
    if qinput.empty():
        if not process_count: gloop.stop()

print 'start'
gloop.add_callback(worker)
tornado.httpclient.AsyncHTTPClient.configure("tornado.curl_httpclient.CurlAsyncHTTPClient")
gloop.start()
print 'finish'

Вопрос задан более трёх лет назад
763 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 5

5 комментариев

bobrovskyserg @bobrovskyserg

Если вы не в теме, вам стоит, ВНИМАНИЕ!! УМЕНЬШИТЬ громкость заявлений по этой теме.
Потоки в Торнадо - это совсем не то же самое, что потоки JVM.
Даже близко не лежат.

Написано более трёх лет назад
Никита @jkotkot

Вы решение-то свое уже написали? Что-то не видно.

Написано более трёх лет назад
un1t @un1t

Никита все правильно сказал. Должно быть один поток на один процессор.

Написано более трёх лет назад
rodion-dev @rodion-dev Автор вопроса

там не потоки, там асинхронное скачивание
должно работать в 15000 загрузок одновременно

Написано более трёх лет назад
lega @lega

Никита @un1t У автора скрипт итак работает в один поток.

Написано более трёх лет назад

2 комментария

3 комментария

rodion-dev @rodion-dev Автор вопроса

все равно. там скорость штук 20 паралельных загрузок на взгляд.
ресурсы по нулям.

Написано более трёх лет назад
Илья @766dt

ресурсы по нулям - загрузка процессора нулевая?

Написано более трёх лет назад
Илья @766dt

Чтоб не гадать как работает файловый вывод на конкретной системе, проще всего попробовать сохранять словарик data в какую-нибудь монгу, она даже с обычным драйвером не ждет записи. Это должно быть даже удобнее, чем миллионы файлов, особенно если потом придется что-то искать.

Написано более трёх лет назад

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Python клон проекта, как создать?
- 1 подписчик
- вчера
- 117 просмотров
1

ответ
Программирование

Простой
Какие есть источники, помогающие понять бизнес-логику проекта?
- 2 подписчика
- 30 июл.
- 276 просмотров
1

ответ
Python

+2 ещё

Простой
Как добавить опцию в контекстное меню для Internet Shortcuts?
- 1 подписчик
- 30 июл.
- 117 просмотров
1

ответ
Python

+2 ещё

Простой
Как в Pyrogram получить id отправленного сообщения?
- 1 подписчик
- 30 июл.
- 64 просмотра
1

ответ
Python

+1 ещё

Простой
Как распарсить смешанный тип json-данных?
- 1 подписчик
- 26 июл.
- 229 просмотров
3

ответа
Python

+1 ещё

Средний
Как «На лету» добавить клик id в готовый апк, который будет скачиваться с сайта?
- 1 подписчик
- 26 июл.
- 143 просмотра
2

ответа
Python

+1 ещё

Средний
Как подключить отладчик к программе на Python в Docker-контейнере?
- 1 подписчик
- 24 июл.
- 187 просмотров
1

ответ
Python

Простой
Почему не получается создать профиль в программе Dolphin{anty}?
- 1 подписчик
- 24 июл.
- 88 просмотров
1

ответ
Python

Простой
Как совместить два .pdf файла?
- 1 подписчик
- 22 июл.
- 266 просмотров
0

ответов
Python

+1 ещё

Простой
Не доходит колбэк в колбекобработчик, как можно решить эту проблему?
- 1 подписчик
- 22 июл.
- 142 просмотра
1

ответ
Показать ещё Загружается…

Ведущий Python разработчик

Сбер • Москва

от 200 000 до 250 000 ₽

Python Developer

Nomadic Soft

от 2 800 до 3 200 $

Python разработчик

ITK academy • Казань

от 75 000 ₽

Answer 1 · 2015-04-07 05:15:36

Если у вас не 500 ядерный комп, то решение скорее всего заключается в том, чтобы ВНИМАНИЕ!! УМЕНЬШИТЬ число потоков. Если потоков сильно больше, чем ядер и они постоянно работают, то переключение между ними занимает время и ресурсы. Накладные расходы на переключение потоков никто не отменял.

Answer 2 · 2015-04-07 05:18:43

Нужно смотреть по загрузке ресурсов хоста, вероятно производительность упирается в дисковые операции data_process.
Как вариант для проверки можно поднять RAM диск и писать на него, если получится выигрыш нужно как то избавляться от записи на диск.

Answer 3 · 2015-04-07 10:58:04

Надо сделать асинхронной работу с диском, а не только http запросы.
Запись на диск может и так быть асинхронной для скрипта, и если это так, то возможно достаточно было бы убрать

f.flush()
f.close()

и управление в скрипт вернется сразу. Насколько вообще критично дожидаться записи на диск?
Также можно поискать библиотеки для асинхронного файлового I/O, или как вариант - использовать любую базу с асинхронным драйвером для питона.

Answer 4 · 2015-04-07 16:32:28

По сути там 4 вещи которые могут "тормозить": cpu, диск, сеть, сервера (откуда скачивается).

1) Посмотрите не загружено ли одно ядро на 100% (речь не про весь процессор), если есть 100% то нужно "форкать".
2) Отключите сохранение:

def data_process(data, url, headers):
    pass

Если при этом cpu < 100% а сеть не загружена по максимуму - значит (промежуточные) сервера отдают медленно.

Answer 5 · 2015-04-08 02:06:41

rodion-dev @rodion-dev Автор вопроса

все ядра 0%
ресурсы не используются вообще
речь не о потоках, а об асинхронных загрузках.

Ответ написан более трёх лет назад

1 комментарий

Как увеличить скорость скрипта tornado python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт