Почему программа так долго обрабатывает данные?

Question

Александр Тарасов @FiLoY

Python
Word

Почему программа так долго обрабатывает данные?

Не могу понять почему программа так долго обрабатывает данные.
У меня есть docx файл в нем таблица с 2554 записями(строчками), мне надо обработать их, и для этого я хочу занести каждую запись в список как элемент. Но как-то слишком долго выходит, и мне интересно с чем это связанно и можно ли как то ускорить.

# -*- coding: utf-8 -*-
from docx import Document
doc1 = Document('123.docx')

student = []

print(len(doc1.tables))
print(len(doc1.tables[0].rows))
for i in range(len(doc1.tables[0].rows)):
    student.append(doc1.tables[0].rows[i].cells[0].paragraphs[-1].text)
print(student[1])

python 2.7.10 и python-docx 0.8.5

Вопрос задан более трёх лет назад
889 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ответы на вопрос 5

4 комментария

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Почему не работает пример quickstart из документации GLiNKER?
- 1 подписчик
- 7 часов назад
- 35 просмотров
0

ответов
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 17 июл.
- 78 просмотров
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 259 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 232 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 639 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 548 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 305 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 560 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 226 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 140 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2015-07-14 22:10:04

Проблема не в циклах, проблема в самом модуле python-docx именно он работает медленно, то как вы к ячейкам обращаетесь в итоге приводит к созданию кучи временных объектов.

так будет значительно быстрее:

student =  [cell.paragraphs[-1].text for cell in doc1.tables[0].column_cells(0)]

Answer 2 · 2015-07-14 09:19:42

Во-первых, что это за ужас?

for i in range(len(doc1.tables[0].rows)):
    student.append(doc1.tables[0].rows[i].cells[0].paragraphs[-1].text)

Замени на:

table = doc1.tables[0]
for row in table.rows:
    student.append(row.cells[0].paragraphs[-1].text)

Во-вторых, насколько долго?

Answer 3 · 2015-07-14 22:46:29

python-docx медленный, можете вручную распаковать docx (zip) и работать с данными напрямую (там xml), не удобно, но работать будет быстро.

Answer 4 · 2015-07-14 11:52:31

Мне кажется будет быстрее через генератор списка: [student.append(doc1.tables[0].v.cells[0].paragraphs[-1].text) for i,v in enumerate((doc1.tables[0].rows))]

Answer 5 · 2015-07-14 12:36:28

А обязательно именно docx парсить?
Сохранить в csv и считать c помощью питоносвого csv парсера не будет быстрей?

Answer 6 · 2015-07-14 15:07:54

Дмитрий Смоляков @spudro

Попробуй extend вместо append.

Ответ написан более трёх лет назад

1 комментарий

Почему программа так долго обрабатывает данные?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт