Как оптимизировать работу с файлами в Python?

Question

Иван Данчук @IvanIvanichNN

Атишничаю потихоньку

Python
Excel

Как оптимизировать работу с файлами в Python?

Всем привет! Подскажите кто чем может по следующему вопросу.
Есть 16 тысяч экселек, данные из которых мне нужно будет слить воедино. Однако названия листов несмотря на одинаковое содержание различаются, впрочем как и их порядок. Хочу для начала с помощью Python переименовать листы и привести их названия к единому виду чтобы можно было собирать с них данные по единому ключу. Набросал код, который собирает из файлов уникальные названия листов и выгружает их в файлик для последующей обработки:

def sheet_name_file():
    from openpyxl import load_workbook, Workbook
    import os
    sheetname_set = set()
    for dir in os.listdir('C:\\Users\Иван Данчук\Documents\Тест_shutil'):
        path = f'C:\\Users\Иван Данчук\Documents\Тест_shutil\{dir}'
        for file in os.listdir(path):
            wb = load_workbook(os.path.join(path, file))
            sheetname_set.update(wb.sheetnames[0:10])
            print(file)
        wb2 = Workbook()
        ws = wb2.active
        for row in range(1):
            ws.append(list(sheetname_set))
        wb2.save(f'unique_sheet_name_list_{dir}.xlsx')

Затестил его производительность - за 12 минут он обработал 40 файлов в двух папках! То есть на всю обработку уйдет где то 80 часов.
В связи с этим у меня следующие вопросы:
1) можно ли распараллелить обработку файлов по директориям с помощью библиотеки multiprocessing ? Если можно помогите с примером кода - как это правильно сделать?
2) можно ли этот код оптимизировать для обработки?
3) и стоит ли такие масштабные вещи с Excel'ьками проводить в Python? Или лучше в VBA погрузиться для решения подобных задач?

Вопрос задан более трёх лет назад
472 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 2

1 комментарий

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, здравствуйте!
Это home project, для личных нужд - поэтому в нем нет ничего, чего я пока не знаю :-D
Часть кода, приведенная вами - это черновая часть, не законченная. Я использую библиотеку openpyxl и этим синтаксисом мы записываем в активный лист рабочей книги Excel, созданной моим кодом, распарсенные из имеющихся файлов имена листов. То что есть - это сплошная запись в первую строку (получилась бы очень и очень длинная строка), но в финальной версии механизм записи данных файл был бы доведен до удобного формата.
Этот код будет использоваться на регулярной основе как часть R&D проекта и, безусловно, будет совершенствоваться далее в добротный пайплайн для предварительной обработки данных. У меня есть несколько функций, которые используются для сбора и предварительной обработки данных, и их нужно будет тоже в божеский вид привести. Но они столько времени не замораживают как этот код.

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Иван Данчук, я имел в виду, что цикл там не нужен, он из одного шага и переменная row не используется.

Написано более трёх лет назад
Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, я вас понял. Но основная цель вот этого вот на данный момент - напоминание о том, что там, должен быть Цикл, а не вот этот вот цикл))

Написано более трёх лет назад
Сергей П @trapwalker Куратор тега Python

Иван Данчук, в питоне есть такая замечательная шутка, как комментарии. Если начать его с # TODO:то ваша IDE его распарсит, поместит в отдельный удобный список и даже будет напоминать при коммите, что появились новые тудушки, а вы уже коммитите.

Написано более трёх лет назад
Иван Данчук @IvanIvanichNN Автор вопроса

Сергей Паньков, здорово. Спасибо, я не знал об этом. Буду пользоваться.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 1 подписчик
- вчера
- 65 просмотров
1

ответ
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 184 просмотра
1

ответ
Python

Простой
Как сохранить курсор в строке ввода при перезапуске explorer.exe?
- 1 подписчик
- 28 нояб.
- 125 просмотров
1

ответ
Excel

Простой
Почему в Excel 2016 не сохраняет введенные данные?
- 2 подписчика
- 28 нояб.
- 180 просмотров
2

ответа
Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- 27 нояб.
- 116 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 99 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 245 просмотров
1

ответ
PHP

+2 ещё

Простой
Как сконвертировать файл в формате excel в pdf?
- 4 подписчика
- 14 нояб.
- 420 просмотров
4

ответа
Excel

+2 ещё

Простой
Как в Excel 2016 быстро, по всем ячейкам дописать нужные строки?
- 3 подписчика
- 14 нояб.
- 208 просмотров
4

ответа
Excel

Простой
Почему не работают ссылки Excel в Р7-Офис?
- 2 подписчика
- 11 нояб.
- 175 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Answer 1 · 2020-07-08 14:30:47

Или лучше в VBA погрузиться для решения подобных задач?

VBA - однопоточный, расспаралелить не получится.

но если только собрать названия листов, то странно большое время у Вас для такой задачи.
Я тут на коленке набросал код на VBA, так он 200 файлов за 4 минуты обработал, и это без оптимизации кода (excel 32, win 10, 4ядра по 3ГГц).
Можете запустить у себя, для этого открыть новую книгу, открыть редактор макросов, выбрать лист на котором будете работать и вставить следующий код (полной заменой)

Код для сбора списка листов из всех книг директории

Function FilenamesCollection(ByVal FolderPath As String, Optional ByVal Mask As String = "", _
                             Optional ByVal SearchDeep As Long = 999) As Collection
    ' © EducatedFool  excelvba.ru/code/FilenamesCollection
    ' Получает в качестве параметра путь к папке FolderPath,
    ' маску имени искомых файлов Mask (будут отобраны только файлы с такой маской/расширением)
    ' и глубину поиска SearchDeep в подпапках (если SearchDeep=1, то подпапки не просматриваются).
    ' Возвращает коллекцию, содержащую полные пути найденных файлов
    ' (применяется рекурсивный вызов процедуры GetAllFileNamesUsingFSO)

    Set FilenamesCollection = New Collection    ' создаём пустую коллекцию
    Set FSO = CreateObject("Scripting.FileSystemObject")    ' создаём экземпляр FileSystemObject
    GetAllFileNamesUsingFSO FolderPath, Mask, FSO, FilenamesCollection, SearchDeep ' поиск
    Set FSO = Nothing     ' очистка строки состояния Excel
End Function
 
Function GetAllFileNamesUsingFSO(ByVal FolderPath As String, ByVal Mask As String, ByRef FSO, _
                                 ByRef FileNamesColl As Collection, ByVal SearchDeep As Long)
    ' перебирает все файлы и подпапки в папке FolderPath, используя объект FSO
    ' перебор папок осуществляется в том случае, если SearchDeep > 1
    ' добавляет пути найденных файлов в коллекцию FileNamesColl
    On Error Resume Next: Set curfold = FSO.GetFolder(FolderPath)
    If Not curfold Is Nothing Then    ' если удалось получить доступ к папке

        ' раскомментируйте эту строку для вывода пути к просматриваемой
        ' в текущий момент папке в строку состояния Excel
        ' Application.StatusBar = "Поиск в папке: " & FolderPath

        For Each fil In curfold.Files    ' перебираем все файлы в папке FolderPath
            If fil.Name Like "*" & Mask Then FileNamesColl.Add fil.Path
        Next
        SearchDeep = SearchDeep - 1    ' уменьшаем глубину поиска в подпапках
        If SearchDeep Then    ' если надо искать глубже
            For Each sfol In curfold.SubFolders    ' перебираем все подпапки в папке FolderPath
                GetAllFileNamesUsingFSO sfol.Path, Mask, FSO, FileNamesColl, SearchDeep
            Next
        End If
        Set fil = Nothing: Set curfold = Nothing    ' очищаем переменные
    End If
End Function

Sub LoopThroughFiles(ByVal sDirName As String, ByRef lRow As Long, ByVal sMask As String)
   On Error Resume Next
   Dim folder$, coll As Collection
   Dim EX As Excel.Application
   Dim wkb As Workbook
   Dim wks As Worksheet
   Dim file As Variant
   Dim i As Long
   Dim v As Variant
   
 
    folder$ = sDirName
    If Dir(folder$, vbDirectory) = "" Then
        MsgBox "Не найдена папка «" & folder$ & "»", vbCritical
        Exit Sub        ' выход, если папка не найдена
    End If
 
    Set coll = FilenamesCollection(folder$, sMask)        ' получаем список файлов по маске из папки
    If coll.Count = 0 Then
'        MsgBox "В папке «" & Split(folder$, "\")(UBound(Split(folder$, "\")) - 1) & "» нет ни одного подходящего файла!", _
               vbCritical, "Файлы для обработки не найдены"
        Exit Sub        ' выход, если нет файлов
    End If
 
   Set EX = New Application
   EX.Visible = False
   
   ' перебираем все найденные файлы
   For Each file In coll
    
      Cells(lRow, 2) = CStr(file)
      
      Set wkb = EX.Workbooks.Open(Filename:=file)

      ' Если книга не пуста
      If wkb.Sheets.Count > 0 Then
         i = 1
         ReDim v(1 To wkb.Sheets.Count)
         ' Получаем названия листов
         For Each wks In wkb.Sheets
            v(i) = wks.Name
            i = i + 1
         Next wks

      End If

      Cells(lRow, 3) = Join(v, ",")

      wkb.Close False
            
      DoEvents
      
      lRow = lRow + 1
    
      DoEvents
    Next file
    
   Set wks = Nothing: Set wkb = Nothing: Set EX = Nothing
   Set colShts = Nothing
    
End Sub

Sub LoopThroughDirs()
   Dim lLastRow As Long
   Dim lRow As Long
   Dim i As Long
   Dim v As Variant
   Dim dTime As Double

   lRow = 2
   lLastRow = Cells(Rows.Count, 1).End(xlUp).Row
   
   v = Range(Cells(2, 1), Cells(lLastRow, 2))
   
   dTime = Time()
   For i = LBound(v) To UBound(v)
      Application.StatusBar = "Обрабатывается директория " & i & " из " & UBound(v)
      Call LoopThroughFiles(v(i, 1), lRow, "*.xls")
      Call LoopThroughFiles(v(i, 1), lRow, "*.xlsx")
      Call LoopThroughFiles(v(i, 1), lRow, "*.xlsm")
      DoEvents
   Next i
   MsgBox "Готово за " & CStr(CDate(Time() - dTime))
End Sub

для запуска в первой колонке заполнить директории которые он будет смотреть. Просматриваются вложенные директории до 999 грубины.

Запустить процедуру LoopThroughDirs, для этого поставить курсор на название и нажать F5

Результат

Answer 2 · 2020-07-08 12:08:47

1) можно ли распараллелить обработку файлов по директориям с помощью библиотеки multiprocessing ? Если можно помогите с примером кода - как это правильно сделать?

Примерно так должно работать, если не напутал. Но нужно будет добавить какое нибудь дополнительное отслеживание прогресса. Например, записывать еще один файл с названиями excel файлов, из которых уже вытащили названия листов. Потому что pool разобьет, и по порядку делать не будет конечно же.

from multiprocessing import Pool

def get_all_files():
    files = []
    for dir in os.listdir('C:\\Users\Иван Данчук\Documents\Тест_shutil'):
        path = f'C:\\Users\Иван Данчук\Documents\Тест_shutil\{dir}'
        for file in os.listdir(path):
            files.append(os.path.join(path, file))
    return files

def get_sheetnames(file_path):
    wb = load_workbook(file_path)
    with open('sheetnames.txt', 'a', encoding='utf-8') as f:
        f.write('\n'.join(wb.sheetnames[0:10])+'\n')

files = get_all_files()
with Pool(5) as p:
    p.map(get_sheetnames, files)

2) можно ли этот код оптимизировать для обработки?

Лучше не создавать новый воркбук, записывать в него данные после каждой операции. Либо сместите влево код, чтобы выполнился только один раз, а лучше всего записать в файл, как я делал выше. Все равно я так понял значение не имеет где эти данные лежат. Если нужно имя из каждой папки - тоже можно разбить либо на разные текстовики, либо сделать словарь, куда заносить имена листов.

3) и стоит ли такие масштабные вещи с Excel'ьками проводить в Python? Или лучше в VBA погрузиться для решения подобных задач?

Вообще, у вас очень много файлов. Время все равно придется потратить.

Answer 3 · 2020-07-08 12:37:27

Вы можете писать в CSV, прилично сэкономите на этом. CSV-файлы потом легко и быстро конкатенировать системными средствами командной строки. У вас винда, так что COPY, например.
Самое неприятное, что может случиться - это проснуться на утро и увидеть монолитный гигантский файл (результат ночного бдения вашего скрипта), в котором что-то пошло не так где-то после первых 30-60%.

Вообще главное - это вопрос одноразовая ли это задача. Если вы такой объём грузите, скажем, каждые пару дней, то, конечно, нужно юзать мультипроцессинг и настраиваеть нормальный пайплайн с автоматизацией и логами.
Если речь об однократной кастомной обработке в рамках R&D, то не парьтесь, сделайте как проще.

Пишите в CSV. Разбейте объём простым слайсом на несколько кусков и тупо стартуйте отдельными скриптами. Это сэкономит вам время на отладку мультипроцессинга, не надо городить очередей, тасков и прочего.

К вашему коду есть вопросы:

for row in range(1):
            ws.append(list(sheetname_set))

Зачем здесь цикл?
Почему не используете pathlib? Код станет надёжнее и лаконичнее.
Почему не добавили статистику или просто логирование времени работы разных этапов вашего скрипта? Оптимизировать надо начиная с бутылочного горлышка. После первой бутылки задача может показаться не столь актуальной.

Если речь об R&D и вы не знаете что дальше будете делать с данными, то объективно полезные вещи можно вытягивать и сохранять в своеобразные мета-файлы для последующей быстрой обработки. Это выгодно, если бутылочное горлышко застряло в экселе. Вытащите за один проход всё что может пригодиться в sqlite или хотя бы простые json-файлы по одному на каждый документ.

Как оптимизировать работу с файлами в Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт