Как отфильтровать даты в pandas по нескольким ключам?

Question

san_m_m @san_m_m

Python

Как отфильтровать даты в pandas по нескольким ключам?

Добрый день!

Есть таблица.

import requests
from bs4 import BeautifulSoup 
import pandas as pd
import re
import datetime
from datetime import datetime, timedelta

date_cleaning = '15.03.2020'
date_cleaning = datetime.strptime(date_cleaning, '%d.%m.%Y')

url_murmansk = 'https://mintrans.gov-murman.ru/activities/taxi/reestr_taxi/'
r_murmansk = requests.get(url_murmansk)
soup_murmansk = BeautifulSoup(r_murmansk.text, 'html.parser')
data_murmansk = soup_murmansk.find_all(class_ = 'file')
a_murmansk = str(data_murmansk).split('href="/')
a_1_murmansk = str(a_murmansk[1]).split('">\n<span')
a_2_murmansk = ''.join(a_1_murmansk[0].split('amp;'))
a_3_murmansk = 'https://mintrans.gov-murman.ru/' + a_2_murmansk
df_murmansk = pd.read_excel(a_3_murmansk, skiprows = 3)


df_murmansk['Unnamed: 10'] = pd.to_datetime(df_murmansk['Unnamed: 10'], dayfirst = True)
df_murmansk = df_murmansk.loc[(df_murmansk['Unnamed: 10'] > date_cleaning)]

df_murmansk

Мне нужно чтобы в таблицы остались только строчки с датами двух промежутков:
1) с 15 марта 2020 года по 31 декабря 2020 года.
2) с сегодняшнего дня и дальше.

В вышеприведенном коде я отфильтровал по 15 марта, как оптимально оптимизировать данный код для двух временных промежутков?

Вопрос задан более трёх лет назад
350 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

3 комментария

san_m_m @san_m_m Автор вопроса
А можно еще один вопрос?

А как модернизировать код, чтобы исключить дополнительно список дат?

list_dates = ['21.05.2021', '03.06.2021', '15.06.2021']
Написано более трёх лет назад
san_m_m @san_m_m Автор вопроса

Подскажите?

Написано более трёх лет назад

zexer @zexer

san_m_m, например вот так

import pandas as pd

dates = pd.date_range(start='2020-01-01', periods=500)
df = pd.DataFrame({'Timestamp': dates, 'Value': range(len(dates))})

exclude_dates = ['2021-05-10', '2021-05-12', '2021-05-13', '2021-05-14']
exclude_dates_as_date = [pd.Timestamp(i).date() for i in exclude_dates]
exlcude_bool_list = [pd.Timestamp(i).date() not in exclude_dates_as_date for i in df['Timestamp']]

df = df[(((df['Timestamp'] >= '2020-03-15') & (df['Timestamp'] <= '2020-12-31')) | (df['Timestamp'] >= '2021-02-03')) & (exlcude_bool_list)]

df

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 211 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 557 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 495 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 283 просмотра
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 510 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 214 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 126 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 330 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 665 просмотров
5

ответов
Python

+2 ещё

Простой
Где хранить сессию SQLAlchemy в FastAPI: в конструкторе сервиса или передавать в каждый метод?
- 2 подписчика
- 23 мая
- 346 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2021-02-03 14:45:20

import pandas as pd

dates = pd.date_range(start='2020-01-01', periods=500)

df = pd.DataFrame({'Timestamp': dates, 'Value': range(len(dates))})

df = df[((df['Timestamp'] >= '2020-03-15') & (df['Timestamp'] <= '2020-12-31')) | (df['Timestamp'] >= '2021-02-03')]

Если "сегодняшняя дата" будет регулярно меняться, то используйте pd.Timestamp.now() вместо '2021-02-03'

Answer 2 · 2021-02-03 14:51:10

Возможно, так:

from datetime import date
date_cleaning = date(2020, 3, 15)
date_cleaning_end = date(2020, 12, 31)

df_murmansk = df_murmansk[
    ((df_murmansk['Unnamed: 10'] > date_cleaning) & (df_murmansk['Unnamed: 10'] < date_cleaning_end)) |
    (df_murmansk['Unnamed: 10'] > date.today())
]

Как отфильтровать даты в pandas по нескольким ключам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт