Как грамотно распараллелить обработку большого количества файлов?

Question

g00dv1n @g00dv1n

Python

Как грамотно распараллелить обработку большого количества файлов?

Есть большое колличество файлов. Около миллиона. Это PE файлы, каждый из них парсится, обрабатывается и информация записывается в базу.

Спарсить надо разово. Потом база пополняется постепенно. Но та как проект в стадии разработки. Структура немного меняется. И нужно делать миграции.

Суть вопроса в том, как максимально эффективно распараллелить обработку большого колличества файлов. Если использовать потоки, ускорить ли это работу? Знаю есть pypy.

UPD. Опишу подробней задачу. Есть много семплов PE (portable executable) файлов. Нужно обработать их большое колличество, чтобы выделить закономерности, статистику и тд. Каждый файл читается и их него парсится нужная информация. Какая именно можно глянуть тут https://github.com/g00dv1n/KnowledgeBase/blob/mast... .
Суть вопроса была в том, как можно максимально быстро обработать большое количество файлов.

Вопрос задан более трёх лет назад
266 просмотров

2 комментария

Подписаться 2 Оценить 2 комментария

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Решения вопроса 1

4 комментария

Пригласить эксперта

Ответы на вопрос 2

3 комментария

g00dv1n @g00dv1n Автор вопроса

Опишу подробней. У меня много сэмплов malware. Задача структуризировать их. Сортировать по статическим признакам и прочее. Хочу ускорить начальный процесс наполенния базы .Я открываю файл читаю всю инфу что мне нужно. Подробней тут https://github.com/g00dv1n/KnowledgeBase/blob/mast... . Это IO . Каких то тяжелых вычислительных операций тут не просходит. И спасибо за подробный ответ.

Написано более трёх лет назад
Дмитрий @EvilsInterrupt

g00dv1n: Сделайте UPD в вашем вопросе и опишите в нем! Люди редко читают весь набор комментариев. Я лично дальше 1-5 не читаю, лень!

Написано более трёх лет назад
g00dv1n @g00dv1n Автор вопроса

Дмитрий: Да, окей) Просто редко их задаю!)

Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 145 просмотров
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 104 просмотра
1

ответ
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 90 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 92 просмотра
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 237 просмотров
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 272 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 171 просмотр
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 150 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 271 просмотр
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 156 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

А какое отношение к BigData имеет ваша проблема?

Answer 1 · 2016-12-23 16:56:43

multiprocessing может ускорить, если парсинг одного файла занимает существенное время, threading не ускорит, т.к. исполняется на одном ядре. Если основное время уходит на ожидание операций с БД то помоему и то и то ускорит

Answer 2 · 2016-12-23 17:59:06

Что рекомендую почитать :
1. Что такое CPU bound, IO Bound, Memory Bound?
2. Что такое GIL ?

Если кратко, то:
1. В Python-е "мультипоточность" решается в различных процессах, из-за п.2
2. Знайте свою ситуацию как можно лучше!
Если у вас все упарается в IO, к примеру много запросов от пользователей, то это одно. А если очень большой вычислительный процесс, к примеру подбор пароля, накладывание защиты, виртуализация кода и т.д. и т.п. это другое.

Программисту достаточно часто приходится регулярно жертвовать чем-либо, чтобы что-то другое стало по-лучше. К примеру памятью лишь бы ЦПУ сэкономить, либо ЦПУ чтобы IO было по-круче.

Answer 3 · 2016-12-23 16:59:42

asd111 @asd111

chriskiehl.com/article/parallelism-in-one-line

Ответ написан более трёх лет назад

Комментировать

Как грамотно распараллелить обработку большого количества файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт