Оптимизация записи в excel как сделать?

Question

Anton27 @Anton27

Оптимизация записи в excel как сделать?

Всем привет, столкнулся с такой проблемой - у меня в папке лежит 26 000 xml файлов, я каждый файл проверяю и записываю в таблицу excel.

from bs4 import BeautifulSoup
import requests as req
from fake_useragent import *
import xml.etree.ElementTree as ET
import os
import openpyxl

myDOC = r'XMLfiles/1.xml'
#
# beginTree = ET.parse(myDOC)
# file_root = beginTree.getroot()
# elem = file_root.find('vendor')
# print(elem.text)
allFiles = os.listdir('C:/Content/SplitFiles')
Description_item = 'У данного товара нет этого поля'
DOP_Description_item = 'У данного товара нет этого поля'
BRAND_item = 'Информация не указана'
NAME_item = 'Название товара не указанно'
print(len(allFiles))
statusList = []
countList = []
priceList = []
barcodeList = []
itemIDlist = []
urlList = []

nameList = []
brandList = []
descriptionList = []
DOPDescriptionList = []
book = openpyxl.Workbook()
sheet = book.active
for i in range(2, len(allFiles)):
    beginTree = ET.parse(r'C:/Content/SplitFiles/' + allFiles[i])

    file_root = beginTree.getroot()
    barcode = file_root.find('barcode')
    if barcode is not None:
        bar = barcode.text
        sheet['D' + str(i)].value = bar
    else:
        sheet['D' + str(i)].value = 'Информация отсутствует'
    #
    elem = file_root.find('price')
    PRICE_item = elem.text
    sheet['B' + str(i)].value = PRICE_item
    #
    count = file_root.find('count')
    if count is not None:
        cnt = count.text
        sheet['E' + str(i)].value = cnt
    else:
        sheet['E' + str(i)].value = 'Информация отсутствует'
    #
    elem = file_root.find('name')
    if elem is not None:
        NAME_item = elem.text
        sheet['A' + str(i)].value = NAME_item
    #
    status = file_root.find('status')
    if status is not None:
        if status.text == '200' or status.text == '2':
            sheet['C' + str(i)].value = 'Нет в наличии'
        if status.text == '100' or status.text == '1':
            sheet['C' + str(i)].value = 'Нет в наличии'
    #
    urlItem = file_root.find('url')
    link = urlItem.text
    res = req.get(link, headers={'User-Agent': UserAgent().chrome})
    html = BeautifulSoup(res.text, 'html.parser')
    IDs = html.select('#catalog-model-supertop #catalog-item-code')
    for ID in IDs:
        a = ID.text.replace('Код товара: ','')
        sheet['F' + str(i)].value = a
        print('Выполнено {0} из {1}'.format(i, len(allFiles)))
    #
    elem = file_root.find('url')
    URL_item = elem.text
    sheet['G' + str(i)].value = URL_item
    book.save('items1.xlsx')


sheet['A1'], sheet['B1'], sheet['C1'] = 'Название', 'Цена', 'Статус',
sheet['D1'], sheet['E1'], sheet['F1'] =  'Бар-код', 'Count', 'ID'
sheet['G1'] = 'URL'

и загрузка даже 4 000 файлов у меня заняла порядка 2-3 часов, можете подсказать, в чем дело?

Вопрос задан более трёх лет назад
187 просмотров

3 комментария

Подписаться 2 Средний 3 комментария

Saboteur @saboteur_kiev Куратор тега Python

Ну так видимо файлы большие. Вы же можете расставить промежуточный вывод прогресса и увидеть на какую часть процедуры уходит больше всего времени - на парсинг, на замену значенией, на чтение, на запись?

Написано более трёх лет назад
hint000 @hint000

в чем дело?
в Excel? ¯\_(ツ)_/¯ Он хороший, но тяжелый.
Для теста замените все записи в ячейки на вывод в текстовый файл и сравните время.
https://www.commitstrip.com/en/2020/02/19/excel-at...

Написано более трёх лет назад
Krasnoarmeec @Krasnoarmeec

Эксель медленно пишет в таблицу.
Реально ускоряет процесс записи отключение обновления экрана, пересчёта формул и отключение событий:
Application.ScreenUpdating = false
Application.Calculation = xlCalculationManual
Application.EnableEvents = false

Только не забудьте в конце скрипта вернуть всё на место (xlAutomatic для пересчёта формул) :-)

Может слегка помочь (ускорить процесс записи в таблицу) также изменение с ".value" на ".value2".

Единственный недостаток Application.EnableEvents = false в том, что не сможете в процессе исполнения остановить скрипт по "Esc" ("DoEvents" может помочь и с этим).

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
ProductStar

Профессия: Python-разработчик

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Почему не работает await event.message.delete()?
- 1 подписчик
- 37 минут назад
- 28 просмотров
0

ответов
Python

Простой
Почему при установке iJulia у меня возникает ошибка, указывающая на отсутствие Conda?
- 1 подписчик
- час назад
- 13 просмотров
0

ответов
Python

Простой
Почему выходит ошибка?
- 1 подписчик
- вчера
- 144 просмотра
2

ответа
Python

+1 ещё

Средний
Разработка самообучающегося бота. Как лучше настроить экранное зрение?
- 2 подписчика
- 14 дек.
- 146 просмотров
1

ответ
Excel

+1 ещё

Средний
PowerQuery эффективность применения при работе с большим к-вом файлов?
- 2 подписчика
- 12 дек.
- 53 просмотра
1

ответ
Python

+2 ещё

Простой
Как получить доступ к элементам внутри shadow-root (closed)?
- 1 подписчик
- 09 дек.
- 112 просмотров
1

ответ
Python

+1 ещё

Простой
Как повысить читабельность кода?
- 1 подписчик
- 08 дек.
- 191 просмотр
0

ответов
PHP

+1 ещё

Простой
Как найти значение в XML?
- 2 подписчика
- 06 дек.
- 232 просмотра
1

ответ
Excel

+1 ещё

Простой
Как в VBA открыть книгу EXCEL полностью скрытно от пользователя?
- 2 подписчика
- 04 дек.
- 105 просмотров
1

ответ
Python

Простой
Как получить конкретный атрибут приложенный в обьект?
- 1 подписчик
- 28 нояб.
- 226 просмотров
1

ответ
Показать ещё Загружается…

Специалист по API и автоматизации данных (Google Apps Script / Python)

Агентство ШОЛЬЧЕВ

До 100 000 ₽

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Ну так видимо файлы большие. Вы же можете расставить промежуточный вывод прогресса и увидеть на какую часть процедуры уходит больше всего времени - на парсинг, на замену значенией, на чтение, на запись?
в чем дело?
в Excel? ¯\_(ツ)_/¯ Он хороший, но тяжелый.
Для теста замените все записи в ячейки на вывод в текстовый файл и сравните время.
https://www.commitstrip.com/en/2020/02/19/excel-at...
Эксель медленно пишет в таблицу.
Реально ускоряет процесс записи отключение обновления экрана, пересчёта формул и отключение событий:
Application.ScreenUpdating = false
Application.Calculation = xlCalculationManual
Application.EnableEvents = false

Только не забудьте в конце скрипта вернуть всё на место (xlAutomatic для пересчёта формул) :-)

Может слегка помочь (ускорить процесс записи в таблицу) также изменение с ".value" на ".value2".

Единственный недостаток Application.EnableEvents = false в том, что не сможете в процессе исполнения остановить скрипт по "Esc" ("DoEvents" может помочь и с этим).

Answer 1 · 2021-09-28 19:15:09

А зачем вы сохраняете книгу на каждой итерации цикла for? Попробуйте поставить сохранение после цикла, может даст прибавку к скорости.

Оптимизация записи в excel как сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт