Как распарсить большое количество логов?

Question

Leks @Leksnsk

Как распарсить большое количество логов?

Доброго времени суток.

Как лучше всего подойти к задаче парсинга большого объема csv логов звонков (~ 12-15 ГБ), что бы получить максимальную скорость обработки данных?
Логи представляют из себя набор данных - "время, имя, длительность".
По итогу надо для каждого уникального имени получить суммарную длительность.

Таким скриптом на pyhton считалось > 2 часов, хотелось бы побыстрее:

import sys
import re

d = {}

for line in sys.stdin:
                        NameRE = re.compile("NAME=(\w+)")
                        TimeRE = re.compile("TIME=(\d+)")
                        if NameRE.search(line):
                                Name = str(NameRE.search(line).group(1))
                                Time = int(TimeRE.search(line).group(1))
                        if Name in d:
                                Time += d[Name]
                                d[Name] = Time
                        else:
                                d[Name] = Time
for k in d:
        print '%s  %s' % (k, d[k])

Вопрос задан более трёх лет назад
2444 просмотра

1 комментарий

Подписаться 3 Оценить 1 комментарий

CSV нужно читать через модуль csv. Он правильно разделит на поля и там не нужно будет искать регекспами.

По идее, нужен многопоточный вариант, где один поток выбирает записи и передаёт другому, а другой разбирает записи и передаёт третьему, а третий считает разобранное и передаёт четвёртому, а четвёртый выводит результат.

И делать это нужно на каком-нибудь Go (там всё заточено под потоки).

Answer 1 · 2015-11-23 08:13:57

- re.compile нужно вынести из цикла.
- сделать из двух регулярок одну и вместо трех вызовов search делать один.
- убрать бесполезное преобразование str(NameRE.search(line).group(1))

Как распарсить большое количество логов?

Войдите на сайт