Работа с датами в pandas?

Question

san_m_m @san_m_m

Python

Работа с датами в pandas?

Добрый день!

Вопрос следующий...
Есть DataFrame, в котором есть столбцы с датами

spisok = ['25.05..2001',  '25.06.2001', '25.43.2004', '05.02.2005', '27.02.2008']
df = pd.DataFrame(spisok)

Мне на ум приходит только в лоб

df = df.str.replace("..",' .')

Но он меняет все криво.
Как исправить даты? И почему в лоб не получается поменять?

Вопрос задан более трёх лет назад
149 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

san_m_m @san_m_m Автор вопроса

Но если у меня ошибки .. или 20226 в годе, то pd.to datetime выдаст ошибку.

Написано более трёх лет назад
dmshar @dmshar

san_m_m, А также если у вас "43" в месяце или дата типа "30.02.2005". И да, to datetime - выдаст ошибку, ибо она не может предвидеть все ошибки, которые вы можете наворотить а тем более - их исправить. И что из этого следует?

Написано более трёх лет назад
san_m_m @san_m_m Автор вопроса

dmshar, либо такие строки мы пропускаем, либо исправляем. Была идея исправить с помощью replace, но за это как выяснилось руки бьют....

Написано более трёх лет назад
dmshar @dmshar

san_m_m, Т.е. посути вы натыкаетесь на определенную ошибку и потом пытаетесь написать скрипт ее исправляющий? И так по каждой из ошибок, которую вам нейдет to_datetime? Не проще-ли просто ручками такие ошибки исправлять, а скрипты писать только в случае, если ошибка носит регулярно-повторяющийся характер.

Написано более трёх лет назад
san_m_m @san_m_m Автор вопроса

dmshar, так в моей задаче, для которой я пишу скрипт... эти ошибки носят регулярно-повторяющийся характер. И вопрос я задал, чтобы понять как написать работающий скрипт, с помощью которого можно избежать регулярного исправления ручками )

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 1 подписчик
- 21 час назад
- 58 просмотров
1

ответ
Python

+3 ещё

Простой
Авто торговля на байбите?
- 1 подписчик
- 15 мая
- 354 просмотра
1

ответ
Python

Простой
Как научиться извлекать математическую модель для решения задач на программирование?
- 1 подписчик
- 14 мая
- 257 просмотров
2

ответа
Python

+3 ещё

Средний
Как перенести позу SMPL модели на игровую 3д модель?
- 2 подписчика
- 10 мая
- 286 просмотров
1

ответ
Python

+1 ещё

Простой
Как при вызове хранимой процедуры получать значения RAISE NOTICE?
- 2 подписчика
- 13 апр.
- 282 просмотра
2

ответа
Python

+2 ещё

Простой
Почему не работает Selenium?
- 1 подписчик
- 09 апр.
- 322 просмотра
2

ответа
Python

Простой
В чем ошибка в использовании ft.ResponsiveView в данном коде?
- 1 подписчик
- 08 апр.
- 104 просмотра
1

ответ
Python

Простой
Можно ли указывать во flet heigh и width через проценты?
- 1 подписчик
- 02 апр.
- 120 просмотров
1

ответ
Python

Простой
Как правильно позиционировать элементы во flet?
- 1 подписчик
- 02 апр.
- 108 просмотров
1

ответ
Python

Простой
Почему может не отображаться страница во view(flet)?
- 1 подписчик
- 25 мар.
- 128 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-04-26 16:37:20

Если вам уж очень кортит сделать скрипт исправление конкретной ошибки - то можете использовать один из вариантов:
df['С'] = [s.replace('..','.') for s in df['A']]
либо:

def func(x):
    return x.replace('..','.')
df['B']=df['A'].apply(func)

Результат:

/
        A           B           С
0  25.05..2001  25.05.2001  25.05.2001
1   25.06.2001  25.06.2001  25.06.2001
2   25.43.2004  25.43.2004  25.43.2004
3   05.02.2005  05.02.2005  05.02.2005
4   27.02.2008  27.02.2008  27.02.2008

Answer 2 · 2021-04-26 16:45:17

Дело тут не в пандасе, а в самих данных, они кривые. Универсального решения парсинга дат, наверное, не существует. Можно начать с пары автоматических вариантов, а потом руками или кастомными обработчиками.

1. Сообщения об ошибках позволят разделить проблемы на группы.

from dateutil import parser

spisok = ['25.05..2001',  '25.06.2001', '25.43.2004', '05.02.2005', '27.02.2008']

for elem in spisok:
    try:
        d = parser.parse(elem, dayfirst=True)
        print(f"{elem} -> {repr(d)}")
    except parser.ParserError as err:
        print(f"{elem} -> {err.__class__.__name__}: {err}")

25.05..2001 -> ParserError: Unknown string format: 25.05..2001
25.06.2001 -> datetime.datetime(2001, 6, 25, 0, 0)
25.43.2004 -> ParserError: month must be in 1..12: 25.43.2004
05.02.2005 -> datetime.datetime(2005, 2, 5, 0, 0)
27.02.2008 -> datetime.datetime(2008, 2, 27, 0, 0)

2. Более продвинутая версия парсера. В его настройках не разбирался.

import dateparser

spisok = ['25.05..2001',  '25.06.2001', '25.43.2004', '05.02.2005', '27.02.2008']

for elem in spisok:
    d = dateparser.parse(elem, languages=['ru'])
    print(f"{elem} -> {repr(d)}")

25.05..2001 -> datetime.datetime(2001, 5, 25, 0, 0)
25.06.2001 -> datetime.datetime(2001, 6, 25, 0, 0)
25.43.2004 -> None
05.02.2005 -> datetime.datetime(2005, 2, 5, 0, 0)
27.02.2008 -> datetime.datetime(2008, 2, 27, 0, 0)

Answer 3 · 2021-04-26 15:09:53

Dimonchik @dimonchik2013

non progredi est regredi

df.str.replace("..",' .')
за такое больно бьют

кури
pd.to_datetime

ну или to_date если есть

Ответ написан более трёх лет назад

5 комментариев

Работа с датами в pandas?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт