Оптимизация записи в excel как сделать?

Question

Anton27 @Anton27

Оптимизация записи в excel как сделать?

Всем привет, столкнулся с такой проблемой - у меня в папке лежит 26 000 xml файлов, я каждый файл проверяю и записываю в таблицу excel.

from bs4 import BeautifulSoup
import requests as req
from fake_useragent import *
import xml.etree.ElementTree as ET
import os
import openpyxl

myDOC = r'XMLfiles/1.xml'
#
# beginTree = ET.parse(myDOC)
# file_root = beginTree.getroot()
# elem = file_root.find('vendor')
# print(elem.text)
allFiles = os.listdir('C:/Content/SplitFiles')
Description_item = 'У данного товара нет этого поля'
DOP_Description_item = 'У данного товара нет этого поля'
BRAND_item = 'Информация не указана'
NAME_item = 'Название товара не указанно'
print(len(allFiles))
statusList = []
countList = []
priceList = []
barcodeList = []
itemIDlist = []
urlList = []

nameList = []
brandList = []
descriptionList = []
DOPDescriptionList = []
book = openpyxl.Workbook()
sheet = book.active
for i in range(2, len(allFiles)):
    beginTree = ET.parse(r'C:/Content/SplitFiles/' + allFiles[i])

    file_root = beginTree.getroot()
    barcode = file_root.find('barcode')
    if barcode is not None:
        bar = barcode.text
        sheet['D' + str(i)].value = bar
    else:
        sheet['D' + str(i)].value = 'Информация отсутствует'
    #
    elem = file_root.find('price')
    PRICE_item = elem.text
    sheet['B' + str(i)].value = PRICE_item
    #
    count = file_root.find('count')
    if count is not None:
        cnt = count.text
        sheet['E' + str(i)].value = cnt
    else:
        sheet['E' + str(i)].value = 'Информация отсутствует'
    #
    elem = file_root.find('name')
    if elem is not None:
        NAME_item = elem.text
        sheet['A' + str(i)].value = NAME_item
    #
    status = file_root.find('status')
    if status is not None:
        if status.text == '200' or status.text == '2':
            sheet['C' + str(i)].value = 'Нет в наличии'
        if status.text == '100' or status.text == '1':
            sheet['C' + str(i)].value = 'Нет в наличии'
    #
    urlItem = file_root.find('url')
    link = urlItem.text
    res = req.get(link, headers={'User-Agent': UserAgent().chrome})
    html = BeautifulSoup(res.text, 'html.parser')
    IDs = html.select('#catalog-model-supertop #catalog-item-code')
    for ID in IDs:
        a = ID.text.replace('Код товара: ','')
        sheet['F' + str(i)].value = a
        print('Выполнено {0} из {1}'.format(i, len(allFiles)))
    #
    elem = file_root.find('url')
    URL_item = elem.text
    sheet['G' + str(i)].value = URL_item
    book.save('items1.xlsx')


sheet['A1'], sheet['B1'], sheet['C1'] = 'Название', 'Цена', 'Статус',
sheet['D1'], sheet['E1'], sheet['F1'] =  'Бар-код', 'Count', 'ID'
sheet['G1'] = 'URL'

и загрузка даже 4 000 файлов у меня заняла порядка 2-3 часов, можете подсказать, в чем дело?

Вопрос задан более двух лет назад
163 просмотра

3 комментария

Подписаться 2 Средний 3 комментария

Saboteur @saboteur_kiev Куратор тега Python

Ну так видимо файлы большие. Вы же можете расставить промежуточный вывод прогресса и увидеть на какую часть процедуры уходит больше всего времени - на парсинг, на замену значенией, на чтение, на запись?

Написано более двух лет назад
hint000 @hint000

в чем дело?
в Excel? ¯\_(ツ)_/¯ Он хороший, но тяжелый.
Для теста замените все записи в ячейки на вывод в текстовый файл и сравните время.
https://www.commitstrip.com/en/2020/02/19/excel-at...

Написано более двух лет назад
Krasnoarmeec @Krasnoarmeec

Эксель медленно пишет в таблицу.
Реально ускоряет процесс записи отключение обновления экрана, пересчёта формул и отключение событий:
Application.ScreenUpdating = false
Application.Calculation = xlCalculationManual
Application.EnableEvents = false

Только не забудьте в конце скрипта вернуть всё на место (xlAutomatic для пересчёта формул) :-)

Может слегка помочь (ускорить процесс записи в таблицу) также изменение с ".value" на ".value2".

Единственный недостаток Application.EnableEvents = false в том, что не сможете в процессе исполнения остановить скрипт по "Esc" ("DoEvents" может помочь и с этим).

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как написать программу для определения количества осей симетрии четыреугольника?
- 1 подписчик
- 48 минут назад
- 26 просмотров
1

ответ
Python

Простой
Как в конце каждой строки файла добавить тэг??
- 1 подписчик
- час назад
- 43 просмотра
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- час назад
- 30 просмотров
1

ответ
PHP

+2 ещё

Средний
Запросы soap в инфоклинику на php?
- 1 подписчик
- 5 часов назад
- 96 просмотров
2

ответа
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 20 часов назад
- 158 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- вчера
- 121 просмотр
2

ответа
Excel

Средний
Как проверить содержимое ячейки на наличие слова из диапазона?
- 1 подписчик
- вчера
- 24 просмотра
0

ответов
Python

+2 ещё

Простой
Как транслировать аудио в микрофон, py, c#, c++?
- 1 подписчик
- вчера
- 145 просмотров
3

ответа
Python

Средний
Почему Низкий FPS анализ изображения yolov8 YOLO?
- 1 подписчик
- вчера
- 24 просмотра
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- вчера
- 1283 просмотра
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработка мобильного приложения с интеграцией из WhatsApp

23 апр. 2024, в 18:23

200000 руб./за проект

Необходимо отверстать страницу сайта с мобильной версией и адаптивным

23 апр. 2024, в 17:59

1000 руб./в час

Разместить объявления на Авито

23 апр. 2024, в 17:47

10000 руб./за проект

Ну так видимо файлы большие. Вы же можете расставить промежуточный вывод прогресса и увидеть на какую часть процедуры уходит больше всего времени - на парсинг, на замену значенией, на чтение, на запись?
в чем дело?
в Excel? ¯\_(ツ)_/¯ Он хороший, но тяжелый.
Для теста замените все записи в ячейки на вывод в текстовый файл и сравните время.
https://www.commitstrip.com/en/2020/02/19/excel-at...
Эксель медленно пишет в таблицу.
Реально ускоряет процесс записи отключение обновления экрана, пересчёта формул и отключение событий:
Application.ScreenUpdating = false
Application.Calculation = xlCalculationManual
Application.EnableEvents = false

Только не забудьте в конце скрипта вернуть всё на место (xlAutomatic для пересчёта формул) :-)

Может слегка помочь (ускорить процесс записи в таблицу) также изменение с ".value" на ".value2".

Единственный недостаток Application.EnableEvents = false в том, что не сможете в процессе исполнения остановить скрипт по "Esc" ("DoEvents" может помочь и с этим).

Answer 1 · 2021-09-28 19:15:09

А зачем вы сохраняете книгу на каждой итерации цикла for? Попробуйте поставить сохранение после цикла, может даст прибавку к скорости.

Оптимизация записи в excel как сделать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт