Как читать данные в таблице xlsx? построчно форматировать данные вставляя в столбцы?

Question

dimorexa @dimorexa

Python
Excel

Как читать данные в таблице xlsx? построчно форматировать данные вставляя в столбцы?

Имеется массив данных построчно (каждый в одной ячейке в начале строки) в таблице name.xlsx вида:

15:32:50> 19-10-08 14:48:58
15:32:50> Flow 0 m3/h
15:32:50> POS: +4x m
15:32:50>
15:33:03> 19-10-08 14:49:58
15:33:03> Flow 0 m3/h
15:33:03> POS: +4x m
15:33:03>
15:33:16> 19-10-08 14:50:58
15:33:16> Flow 0 m3/h
15:33:16> POS: +6x m
15:33:16>

требуется разбить данные по 3-ем столбцам и сохранить в этот же файл(в новом листе) чтобы получилось:

1столбец 2столбец 3столбец
19.10.08 14:48:58 0 4
19.10.08 14:49:58 0 4
19.10.08 14:50:58 0 6

Вопрос задан более трёх лет назад
713 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

12 комментариев

dimorexa @dimorexa Автор вопроса

Что я делаю не так ? Добавил адрес файла и ....

import openpyxl
import re

wb = openpyxl.load_workbook('C:\\Users\\OD\\Desktop\\python_scripts\\Book1.xlsx')
sheet = wb.active

log = dict()
# перебираем ячейки 1-го столбца и группируем по времени лога
for c in sheet['A']:
key = c.value[:8]
val = c.value[10:]
log[key] = log.get(key,'') + val

rc = re.compile(r"(\d+-\d+-\d+) (\d+:\d+:\d+).*?Flow (\d+).*?POS:.*?(\d+)")
new_data = []
for key, val in log.items():
m = rc.search(val)
if m:
new_data.append(m.groups())

# наши разбитые данные
print('new data:', new_data)

# и записываем результат на новый лист (для простоты через добавление новых строк)
sheet = wb['Sheet2']
for row in new_data:
sheet.append(row)
wb.save('C:\\Users\\OD\\Desktop\\python_scripts\\Book1.xlsx')

# и в итоге получил это...

new data: []
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
in
23
24 # и записываем результат на новый лист (для простоты через добавление новых строк)
---> 25 sheet = wb['Sheet2']
26 for row in new_data:
27 sheet.append(row)

~\Anaconda3\lib\site-packages\openpyxl\workbook\workbook.py in __getitem__(self, key)
275 if sheet.title == key:
276 return sheet
--> 277 raise KeyError("Worksheet {0} does not exist.".format(key))
278
279 def __delitem__(self, key):

KeyError: 'Worksheet Sheet2 does not exist.'

Написано более трёх лет назад
o5a @o5a

dimorexa, wb['Sheet2'] здесь должно быть точное название листа, в который помещаем данные. В русской версии Excel это "Лист2" и подобные названия.

Написано более трёх лет назад
dimorexa @dimorexa Автор вопроса

o5a, прописал "лист2"

и снова...

new data: []
---------------------------------------------------------------------------
KeyError Traceback (most recent call last)
in
23
24 # и записываем результат на новый лист (для простоты через добавление новых строк)
---> 25 sheet = wb['Лист2']
26 for row in new_data:
27 sheet.append(row)

~\Anaconda3\lib\site-packages\openpyxl\workbook\workbook.py in __getitem__(self, key)
275 if sheet.title == key:
276 return sheet
--> 277 raise KeyError("Worksheet {0} does not exist.".format(key))
278
279 def __delitem__(self, key):

KeyError: 'Worksheet Лист2 does not exist.'

Написано более трёх лет назад
o5a @o5a
Видимо у вас в том файле только 1 лист. Создайте новый с нужным именем, вместо sheet = wb['Лист2']:
sheet_name = 'Лист2' if sheet_name not in wb.sheetnames: wb.create_sheet(sheet_name) sheet = wb[sheet_name]
Написано более трёх лет назад
dimorexa @dimorexa Автор вопроса

o5a, открывает файл, создает в нем Лист2, но результатов нет.

import openpyxl
import re

wb = openpyxl.load_workbook('C:\\Users\\OD\\Desktop\\python_scripts\\book1.xlsx')
sheet = wb.active

log = dict()
# перебираем ячейки 1-го столбца и группируем по времени лога
for c in sheet['A']:
key = c.value[:8]
val = c.value[10:]
log[key] = log.get(key,'') + val

rc = re.compile(r"(\d+-\d+-\d+) (\d+:\d+:\d+).*?Flow (\d+).*?POS:.*?(\d+)")
new_data = []
for key, val in log.items():
m = rc.search(val)
if m:
new_data.append(m.groups())

# наши разбитые данные
print('new data:', new_data)

# и записываем результат на новый лист (для простоты через добавление новых строк)

sheet_name = 'Лист2'
if sheet_name not in wb.sheetnames:
wb.create_sheet(sheet_name)
sheet = wb[sheet_name]

sheet = wb['Лист2']
for row in new_data:
sheet.append(row)
wb.save('C:\\Users\\OD\\Desktop\\python_scripts\\book1.xlsx')

Написано более трёх лет назад
o5a @o5a

dimorexa, Так на скриншоте Лист1 с изначальными данными, а на Лист2 данные смотрели? Или Лист2 пустой совсем? А что печатает new_data: (там должны быть распарсенные данные)? Второй раз использовать sheet = wb['Лист2'] не нужно, до этого мы уже выбираем sheet = wb[sheet_name].

Написано более трёх лет назад
dimorexa @dimorexa Автор вопроса

o5a, на скриншоте лист1 с первоначальными данными.
Строку "sheet = wb['Лист2']" убрал
Лист2 создается, но на нем пусто.
печатает:
new data = [ ]

Написано более трёх лет назад
o5a @o5a

dimorexa, Значит он вообще не парсит нужный лист.
Варианты:

1. Лист с данными не основной (тот, что сразу виден при открытии файла).
Вместо sheet = wb.active прописать sheet = wb['Лист1'] с тем названием листа, который с этими данными.

2. Страница выбирается правильно, но по какой-то причине regexp не находит данные (хотя по приведенному скриншоту не вижу, чтобы в этом была проблема). Попробовать добавить вывод print(log) перед rc = re.compile.. и выложить результат сюда.

Написано более трёх лет назад
dimorexa @dimorexa Автор вопроса

o5a,
1. Лист прописал.

2. print (log) выдал:

{'15:32:50': '19-10-08 14:48:58Flow 0 m3/hPOS: +4x m', '15:33:03': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +4x m', '15:33:16': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +6x m', '15:33:45': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +9x m'}

Написано более трёх лет назад
o5a @o5a
dimorexa, И после всего этого все равно пишет new_data: [] и не заполняет Лист2? По приведенному вижу, что словарь данных заполняется адекватно. Для примера скопировал приведенный словарь, запустил у себя, new_data распарсилось адекватно, выводит:
new data: [('19-10-08', '14:48:58', '0', '4'), ('19-10-08', '14:48:58', '0', '4'), ('19-10-08', '14:48:58', '0', '6'), ('19-10-08', '14:48:58', '0', '9')]

Т.е. все как и ожидалось, готово к вставке в лист.
Написано более трёх лет назад
dimorexa @dimorexa Автор вопроса

o5a,
Создает в файле новый Лист2 и в нем пусто все равно. Не могу понять почему не сохраняет ?

import openpyxl
import re

wb = openpyxl.load_workbook('C:\\Users\\OD\\Desktop\\python_scripts\\book1.xlsx')
sheet = wb['Лист1']

log = dict()
# перебираем ячейки 1-го столбца и группируем по времени лога
for c in sheet['A']:
key = c.value[:8]
val = c.value[10:]
log[key] = log.get(key,'') + val
print(log)
rc = re.compile(r"(\d+-\d+-\d+) (\d+:\d+:\d+).*?Flow (\d+).*?POS:.*?(\d+)")
print(rc)
new_data = []
for key, val in log.items():
m = rc.search(val)
if m:
new_data.append(m.groups())

# наши разбитые данные
print('new data:', new_data)

# и записываем результат на новый лист (для простоты через добавление новых строк)

sheet_name = 'Лист2'
if sheet_name not in wb.sheetnames:
wb.create_sheet(sheet_name)
sheet = wb[sheet_name]

for row in new_data:
sheet.append(row)
wb.save('C:\\Users\\OD\\Desktop\\python_scripts\\book1.xlsx')

Получаем:

{'15:32:50': '19-10-08 14:48:58Flow 0 m3/hPOS: +4x m', '15:33:03': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +4x m', '15:33:16': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +6x m', '15:33:45': '_x001A_19-10-08 14:48:58Flow 0 m3/hPOS: +9x m'}
re.compile('(\\d+-\\d+-\\d+) (\\d+:\\d+:\\d+).*?Flow (\\d+).*?POS:.*?(\\d+)')
new data: []

Написано более трёх лет назад
o5a @o5a

dimorexa, пока будет возвращать new_data [] соответственно и писать в Лист2 ничего не будет. А вот не заполняет его потому, что регексп почему-то у тебя не считается (цикл по log.items()). Попробуй подобавляй вывод значений key, val, m, может понятнее будет, почему регексп не определяет. Может какая-то особенность версии питона, или модулей, или из-за символа в поле перед датой, хотя я не вижу, как он может мешать.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 309 просмотров
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 216 просмотров
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 283 просмотра
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 279 просмотров
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 311 просмотров
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 103 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 118 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 128 просмотров
1

ответ
Python

Средний
Asyncio + PySide6 + Telethon: список чатов и треды грузятся 30 минут — где искать причину?
- 2 подписчика
- 16 мар.
- 487 просмотров
2

ответа
Показать ещё Загружается…

Answer 1 · 2019-10-10 08:50:55

Я бы наверное сгруппировал все данные по дате лога, а потом распарсил значения через regexp (если они фиксированы, можно и жестко по индексу). Примерно так

import openpyxl
import re

wb = openpyxl.load_workbook('name.xlsx')
sheet = wb.active

log = dict()
# перебираем ячейки 1-го столбца и группируем по времени лога
for c in sheet['A']:
    key = c.value[:8]
    val = c.value[10:]
    log[key] = log.get(key,'') + val

rc = re.compile(r"(\d+-\d+-\d+) (\d+:\d+:\d+).*?Flow (\d+).*?POS:.*?(\d+)")
new_data = []
for key, val in log.items():
    m = rc.search(val)
    if m:
        new_data.append(m.groups())

# наши разбитые данные
print('new data:', new_data)

# и записываем результат на новый лист (для простоты через добавление новых строк)
sheet = wb['Sheet2']
for row in new_data:
    sheet.append(row)
wb.save('name.xlsx')

Answer 2 · 2019-10-09 22:55:33

Как вариант - Разбить текст по столбцам. Сначала разделитель >
потом разделитель ПРОБЕЛ

Далее просто удалить столбцы ненужные со сдвигом влево. Это, чтобы подтянуть 0 4

Как читать данные в таблице xlsx? построчно форматировать данные вставляя в столбцы?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт