Есть большое колличество файлов. Около миллиона. Это PE файлы, каждый из них парсится, обрабатывается и информация записывается в базу.
Спарсить надо разово. Потом база пополняется постепенно. Но та как проект в стадии разработки. Структура немного меняется. И нужно делать миграции.
Суть вопроса в том, как максимально эффективно распараллелить обработку большого колличества файлов. Если использовать потоки, ускорить ли это работу? Знаю есть pypy.
UPD. Опишу подробней задачу. Есть много семплов PE (portable executable) файлов. Нужно обработать их большое колличество, чтобы выделить закономерности, статистику и тд. Каждый файл читается и их него парсится нужная информация. Какая именно можно глянуть тут
https://github.com/g00dv1n/KnowledgeBase/blob/mast... .
Суть вопроса была в том, как можно максимально быстро обработать большое количество файлов.