Как оптимизировать работу с файлами в Python?

Question

Иван Данчук @IvanIvanichNN

Атишничаю потихоньку

Python
Excel

Как оптимизировать работу с файлами в Python?

Всем привет! Подскажите кто чем может по следующему вопросу.
Есть 16 тысяч экселек, данные из которых мне нужно будет слить воедино. Однако названия листов несмотря на одинаковое содержание различаются, впрочем как и их порядок. Хочу для начала с помощью Python переименовать листы и привести их названия к единому виду чтобы можно было собирать с них данные по единому ключу. Набросал код, который собирает из файлов уникальные названия листов и выгружает их в файлик для последующей обработки:

def sheet_name_file():
    from openpyxl import load_workbook, Workbook
    import os
    sheetname_set = set()
    for dir in os.listdir('C:\\Users\Иван Данчук\Documents\Тест_shutil'):
        path = f'C:\\Users\Иван Данчук\Documents\Тест_shutil\{dir}'
        for file in os.listdir(path):
            wb = load_workbook(os.path.join(path, file))
            sheetname_set.update(wb.sheetnames[0:10])
            print(file)
        wb2 = Workbook()
        ws = wb2.active
        for row in range(1):
            ws.append(list(sheetname_set))
        wb2.save(f'unique_sheet_name_list_{dir}.xlsx')

Затестил его производительность - за 12 минут он обработал 40 файлов в двух папках! То есть на всю обработку уйдет где то 80 часов.
В связи с этим у меня следующие вопросы:
1) можно ли распараллелить обработку файлов по директориям с помощью библиотеки multiprocessing ? Если можно помогите с примером кода - как это правильно сделать?
2) можно ли этот код оптимизировать для обработки?
3) и стоит ли такие масштабные вещи с Excel'ьками проводить в Python? Или лучше в VBA погрузиться для решения подобных задач?

Вопрос задан более трёх лет назад
335 просмотров

Комментировать

Подписаться 1 Средний Комментировать

Решения вопроса 2

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, здравствуйте!
Это home project, для личных нужд - поэтому в нем нет ничего, чего я пока не знаю :-D
Часть кода, приведенная вами - это черновая часть, не законченная. Я использую библиотеку openpyxl и этим синтаксисом мы записываем в активный лист рабочей книги Excel, созданной моим кодом, распарсенные из имеющихся файлов имена листов. То что есть - это сплошная запись в первую строку (получилась бы очень и очень длинная строка), но в финальной версии механизм записи данных файл был бы доведен до удобного формата.
Этот код будет использоваться на регулярной основе как часть R&D проекта и, безусловно, будет совершенствоваться далее в добротный пайплайн для предварительной обработки данных. У меня есть несколько функций, которые используются для сбора и предварительной обработки данных, и их нужно будет тоже в божеский вид привести. Но они столько времени не замораживают как этот код.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Иван Данчук, я имел в виду, что цикл там не нужен, он из одного шага и переменная row не используется.

Написано более трёх лет назад
Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, я вас понял. Но основная цель вот этого вот на данный момент - напоминание о том, что там, должен быть Цикл, а не вот этот вот цикл))

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Иван Данчук, в питоне есть такая замечательная шутка, как комментарии. Если начать его с # TODO:то ваша IDE его распарсит, поместит в отдельный удобный список и даже будет напоминать при коммите, что появились новые тудушки, а вы уже коммитите.

Написано более трёх лет назад
Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, здорово. Спасибо, я не знал об этом. Буду пользоваться.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как получить имена параметров, которые будут переданы при нажатии на кнопку «зарегистрироваться»?
- 1 подписчик
- час назад
- 21 просмотр
1

ответ
Python

+3 ещё

Простой
Нужна помощь/совет — Telegram бот?
- 1 подписчик
- 4 часа назад
- 65 просмотров
1

ответ
Python

+1 ещё

Средний
Как победить варнинг There is no current event loop в юнитестах?
- 1 подписчик
- 6 часов назад
- 27 просмотров
0

ответов
Python

+1 ещё

Простой
Как работают рекурсии?
- 1 подписчик
- 6 часов назад
- 70 просмотров
3

ответа
Python

+3 ещё

Средний
Как запустить обучение с deepspeed у себя на пк?
- 2 подписчика
- 8 часов назад
- 163 просмотра
1

ответ
Excel

+1 ещё

Простой
Как вытащить значения, соответствующие ИСТИНЕ в определенном номере столбца?
- 1 подписчик
- 13 часов назад
- 31 просмотр
1

ответ
Excel

Средний
Какие есть варианты для программной консолидации excel?
- 2 подписчика
- 16 часов назад
- 206 просмотров
3

ответа
Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- вчера
- 78 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- вчера
- 61 просмотр
1

ответ
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- вчера
- 78 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Необходимо сверстать приложение согласно макету Figma используя React

26 апр. 2024, в 22:22

1500 руб./за проект

Написать модуль подключения матрицы Sony к ПЛИС (Verilog)

26 апр. 2024, в 21:30

15000 руб./за проект

8266 f12 требуется сделать ревью и оптимизировать работу

26 апр. 2024, в 20:42

2000 руб./за проект

Answer 1 · 2020-07-08 14:30:47

Или лучше в VBA погрузиться для решения подобных задач?

VBA - однопоточный, расспаралелить не получится.

но если только собрать названия листов, то странно большое время у Вас для такой задачи.
Я тут на коленке набросал код на VBA, так он 200 файлов за 4 минуты обработал, и это без оптимизации кода (excel 32, win 10, 4ядра по 3ГГц).
Можете запустить у себя, для этого открыть новую книгу, открыть редактор макросов, выбрать лист на котором будете работать и вставить следующий код (полной заменой)

Код для сбора списка листов из всех книг директории

Function FilenamesCollection(ByVal FolderPath As String, Optional ByVal Mask As String = "", _
                             Optional ByVal SearchDeep As Long = 999) As Collection
    ' © EducatedFool  excelvba.ru/code/FilenamesCollection
    ' Получает в качестве параметра путь к папке FolderPath,
    ' маску имени искомых файлов Mask (будут отобраны только файлы с такой маской/расширением)
    ' и глубину поиска SearchDeep в подпапках (если SearchDeep=1, то подпапки не просматриваются).
    ' Возвращает коллекцию, содержащую полные пути найденных файлов
    ' (применяется рекурсивный вызов процедуры GetAllFileNamesUsingFSO)

    Set FilenamesCollection = New Collection    ' создаём пустую коллекцию
    Set FSO = CreateObject("Scripting.FileSystemObject")    ' создаём экземпляр FileSystemObject
    GetAllFileNamesUsingFSO FolderPath, Mask, FSO, FilenamesCollection, SearchDeep ' поиск
    Set FSO = Nothing     ' очистка строки состояния Excel
End Function
 
Function GetAllFileNamesUsingFSO(ByVal FolderPath As String, ByVal Mask As String, ByRef FSO, _
                                 ByRef FileNamesColl As Collection, ByVal SearchDeep As Long)
    ' перебирает все файлы и подпапки в папке FolderPath, используя объект FSO
    ' перебор папок осуществляется в том случае, если SearchDeep > 1
    ' добавляет пути найденных файлов в коллекцию FileNamesColl
    On Error Resume Next: Set curfold = FSO.GetFolder(FolderPath)
    If Not curfold Is Nothing Then    ' если удалось получить доступ к папке

        ' раскомментируйте эту строку для вывода пути к просматриваемой
        ' в текущий момент папке в строку состояния Excel
        ' Application.StatusBar = "Поиск в папке: " & FolderPath

        For Each fil In curfold.Files    ' перебираем все файлы в папке FolderPath
            If fil.Name Like "*" & Mask Then FileNamesColl.Add fil.Path
        Next
        SearchDeep = SearchDeep - 1    ' уменьшаем глубину поиска в подпапках
        If SearchDeep Then    ' если надо искать глубже
            For Each sfol In curfold.SubFolders    ' перебираем все подпапки в папке FolderPath
                GetAllFileNamesUsingFSO sfol.Path, Mask, FSO, FileNamesColl, SearchDeep
            Next
        End If
        Set fil = Nothing: Set curfold = Nothing    ' очищаем переменные
    End If
End Function

Sub LoopThroughFiles(ByVal sDirName As String, ByRef lRow As Long, ByVal sMask As String)
   On Error Resume Next
   Dim folder$, coll As Collection
   Dim EX As Excel.Application
   Dim wkb As Workbook
   Dim wks As Worksheet
   Dim file As Variant
   Dim i As Long
   Dim v As Variant
   
 
    folder$ = sDirName
    If Dir(folder$, vbDirectory) = "" Then
        MsgBox "Не найдена папка «" & folder$ & "»", vbCritical
        Exit Sub        ' выход, если папка не найдена
    End If
 
    Set coll = FilenamesCollection(folder$, sMask)        ' получаем список файлов по маске из папки
    If coll.Count = 0 Then
'        MsgBox "В папке «" & Split(folder$, "\")(UBound(Split(folder$, "\")) - 1) & "» нет ни одного подходящего файла!", _
               vbCritical, "Файлы для обработки не найдены"
        Exit Sub        ' выход, если нет файлов
    End If
 
   Set EX = New Application
   EX.Visible = False
   
   ' перебираем все найденные файлы
   For Each file In coll
    
      Cells(lRow, 2) = CStr(file)
      
      Set wkb = EX.Workbooks.Open(Filename:=file)

      ' Если книга не пуста
      If wkb.Sheets.Count > 0 Then
         i = 1
         ReDim v(1 To wkb.Sheets.Count)
         ' Получаем названия листов
         For Each wks In wkb.Sheets
            v(i) = wks.Name
            i = i + 1
         Next wks

      End If

      Cells(lRow, 3) = Join(v, ",")

      wkb.Close False
            
      DoEvents
      
      lRow = lRow + 1
    
      DoEvents
    Next file
    
   Set wks = Nothing: Set wkb = Nothing: Set EX = Nothing
   Set colShts = Nothing
    
End Sub

Sub LoopThroughDirs()
   Dim lLastRow As Long
   Dim lRow As Long
   Dim i As Long
   Dim v As Variant
   Dim dTime As Double

   lRow = 2
   lLastRow = Cells(Rows.Count, 1).End(xlUp).Row
   
   v = Range(Cells(2, 1), Cells(lLastRow, 2))
   
   dTime = Time()
   For i = LBound(v) To UBound(v)
      Application.StatusBar = "Обрабатывается директория " & i & " из " & UBound(v)
      Call LoopThroughFiles(v(i, 1), lRow, "*.xls")
      Call LoopThroughFiles(v(i, 1), lRow, "*.xlsx")
      Call LoopThroughFiles(v(i, 1), lRow, "*.xlsm")
      DoEvents
   Next i
   MsgBox "Готово за " & CStr(CDate(Time() - dTime))
End Sub

для запуска в первой колонке заполнить директории которые он будет смотреть. Просматриваются вложенные директории до 999 грубины.

Запустить процедуру LoopThroughDirs, для этого поставить курсор на название и нажать F5

Результат

Answer 2 · 2020-07-08 12:08:47

1) можно ли распараллелить обработку файлов по директориям с помощью библиотеки multiprocessing ? Если можно помогите с примером кода - как это правильно сделать?

Примерно так должно работать, если не напутал. Но нужно будет добавить какое нибудь дополнительное отслеживание прогресса. Например, записывать еще один файл с названиями excel файлов, из которых уже вытащили названия листов. Потому что pool разобьет, и по порядку делать не будет конечно же.

from multiprocessing import Pool

def get_all_files():
    files = []
    for dir in os.listdir('C:\\Users\Иван Данчук\Documents\Тест_shutil'):
        path = f'C:\\Users\Иван Данчук\Documents\Тест_shutil\{dir}'
        for file in os.listdir(path):
            files.append(os.path.join(path, file))
    return files

def get_sheetnames(file_path):
    wb = load_workbook(file_path)
    with open('sheetnames.txt', 'a', encoding='utf-8') as f:
        f.write('\n'.join(wb.sheetnames[0:10])+'\n')

files = get_all_files()
with Pool(5) as p:
    p.map(get_sheetnames, files)

2) можно ли этот код оптимизировать для обработки?

Лучше не создавать новый воркбук, записывать в него данные после каждой операции. Либо сместите влево код, чтобы выполнился только один раз, а лучше всего записать в файл, как я делал выше. Все равно я так понял значение не имеет где эти данные лежат. Если нужно имя из каждой папки - тоже можно разбить либо на разные текстовики, либо сделать словарь, куда заносить имена листов.

3) и стоит ли такие масштабные вещи с Excel'ьками проводить в Python? Или лучше в VBA погрузиться для решения подобных задач?

Вообще, у вас очень много файлов. Время все равно придется потратить.

Answer 3 · 2020-07-08 12:37:27

Вы можете писать в CSV, прилично сэкономите на этом. CSV-файлы потом легко и быстро конкатенировать системными средствами командной строки. У вас винда, так что COPY, например.
Самое неприятное, что может случиться - это проснуться на утро и увидеть монолитный гигантский файл (результат ночного бдения вашего скрипта), в котором что-то пошло не так где-то после первых 30-60%.

Вообще главное - это вопрос одноразовая ли это задача. Если вы такой объём грузите, скажем, каждые пару дней, то, конечно, нужно юзать мультипроцессинг и настраиваеть нормальный пайплайн с автоматизацией и логами.
Если речь об однократной кастомной обработке в рамках R&D, то не парьтесь, сделайте как проще.

Пишите в CSV. Разбейте объём простым слайсом на несколько кусков и тупо стартуйте отдельными скриптами. Это сэкономит вам время на отладку мультипроцессинга, не надо городить очередей, тасков и прочего.

К вашему коду есть вопросы:

for row in range(1):
            ws.append(list(sheetname_set))

Зачем здесь цикл?
Почему не используете pathlib? Код станет надёжнее и лаконичнее.
Почему не добавили статистику или просто логирование времени работы разных этапов вашего скрипта? Оптимизировать надо начиная с бутылочного горлышка. После первой бутылки задача может показаться не столь актуальной.

Если речь об R&D и вы не знаете что дальше будете делать с данными, то объективно полезные вещи можно вытягивать и сохранять в своеобразные мета-файлы для последующей быстрой обработки. Это выгодно, если бутылочное горлышко застряло в экселе. Вытащите за один проход всё что может пригодиться в sqlite или хотя бы простые json-файлы по одному на каждый документ.

Как оптимизировать работу с файлами в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт