Pandas: как выполнить сложную группировку?

Question

lloyd67 @lloyd67

Python

Pandas: как выполнить сложную группировку?

Хочу перевести все долгие вычисления с SQL на Pandas в проекте.

Есть таблица сеансов устройств (DEVICE (int), DURATION (timedelta), DATE (datetime))

Необходимо посчитать кол-во DEVICE которые имели продолжительность DURATION суммарно 30 минут в день, не менее 5 дней в месяц. (Для каждого месяца считается отдельно)

То есть на SQL это выглядит примерно так:

SELECT COUNT(1) FROM (
	SELECT COUNT(1) as count
	FROM (
		SELECT device_id
		FROM statistic 
    WHERE YEAR(`date`) = 2019 AND MONTH(`date`) = 1
		GROUP BY device_id, DAY(`date`)
		HAVING SUM(duration)) > 60 * 30
	) as t
	GROUP BY device_id HAVING count <= 5
) as w

Как такое провернуть на Pandas ?

Думаю надо сгруппировать по дням месяца и использовать filter

df[df['date'].between(datetime(2019, 1, 1), datetime(2019, 1, 31))].groupby(pd.Grouper(key='date', freq='D')).filter(lambda x: x['duration'].sum() > timedelta(minutes=30))

Но что делать дальше?

Вопрос задан более трёх лет назад
651 просмотр

2 комментария

Подписаться 2 Средний 2 комментария

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Сложный
Как обойти uefi при создании собственной операционной системы?
- 1 подписчик
- 5 часов назад
- 116 просмотров
2

ответа
Python

Средний
Как правильно определять изменяющиеся типы полей при наследовании классов в python?
- 1 подписчик
- 10 часов назад
- 42 просмотра
1

ответ
Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 206 просмотров
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 222 просмотра
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 620 просмотров
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 538 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 300 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 553 просмотра
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 223 просмотра
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 136 просмотров
1

ответ
Показать ещё Загружается…

Дайте кусок исходных данных данных, так будет проще.
Andrey Dugin,
https://ru.files.fm/u/tnegq3fe - кусок в 10 000 строк (85 килобай) но поскольку реальная выборка идет из сотен миллионов записей, возможно он не даст нужных данных.

Answer 1 · 2019-12-02 18:27:43

Dimonchik @dimonchik2013

non progredi est regredi

на всякий спрошу - Кликхаус не вариант?

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2019-12-03 14:44:41

Собственно я добился чего хотел, вот только как то длинно получилось, наверняка есть более элегантная запись:

# считаем сумму duration для каждого дня месяца по каждому устройству (двойная группировка):
data = df.groupby([pd.Grouper(key='date_start', freq='D'), 'device']).agg({'duration': 'sum'})

# из этой выборки оставляем только сумму duration более 30 минут в день, и считаем кол-во таких дней по каждому device:
new_data = data[data['duration'] > timedelta(minutes=30)].groupby('device').count().reset_index().rename(columns={'duration': 'days'})

# из результата берем только те device у которых кол-во дней >= 5 и считаем их кол-во:
print new_data[new_data['days'] >= 5]['device'].count()

Pandas: как выполнить сложную группировку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт