Существует ли такая pandas магия?

Question

Илья Т. @Insaned

Python

Существует ли такая pandas магия?

Есть большой датафрейм с чеками и товарами в них. Количество уникальных товаров 28000, количество чеков 3.7 млн.
Мне надо подсчитать для всех пар товаров как часто они оказываются в одном чеке. Мой говнокод, который приведен ниже по предварительным расчетам будет работать до тепловой смерти вселенной.
Я уверен, что существует какая-нибудь pandas-магия, которая значительно упрощает мою задачу, но ничего придумать не смог.

uniq_itm=train['item_name'].unique()
i = 0
for itm_x in uniq_itm:
    i = i + 1
    if i > len(uniq_itm)/2:
        break
    for itm_y in uniq_itm:
        percent_complete = round((i/(len(uniq_itm)/2))*100,2)
        if itm_x != itm_y:
            k = len(list(set(train.query('item_name==@itm_x')['receipt_id'].unique()) & set(train.query('item_name==@itm_y')['receipt_id'].unique())))
            if k > 0:
                print (itm_x+' '+itm_y+' '+str(k)+' '+str(percent_complete)+'%')

Вопрос задан более трёх лет назад
167 просмотров

4 комментария

Подписаться 1 Средний 4 комментария

Алан Гибизов @phaggi Куратор тега Python

А можете макет датафрейма добавить в вопрос с парой-тройкой строк, похожих на реальные данные, чтоб отвечающим не сочинять и не догадываться?

Написано более трёх лет назад
Илья Т. @Insaned Автор вопроса

Алан Гибизов, готово

Написано более трёх лет назад

Алан Гибизов @phaggi Куратор тега Python

Илья Т., Илья, я видимо не совсем корректно выразился... Я бы сделал что-то вроде вот этого:

import pandas as pd
receipts = [11, 11, 12, 12, 12, 13, 13, 13]
items = ['печеньки', 'молоко', 'молоко', 'конфетки', 'салфетки', 'молоко', 'сахар', 'кофе']

df = pd.DataFrame(zip(receipts, items), columns=['receipt_id', 'item_name'])
print(df)

Написано более трёх лет назад

Илья Т. @Insaned Автор вопроса

Алан Гибизов, Прошу прощения. Примерно так:

import pandas as pd
train = pd.DataFrame({
    'receipt_id':[1,1,2,2,3,3],
    'recipt_dayofweek':[4,4,5,5,6,6],
    'recipt_time':['20:20','20:20','12:13','12:13','11:10','11:10'],
    'item_name':['Молоко','Хлеб','Масло','Хлеб','Болоко','Хлеб']
   
})
print(train)

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее
Skillfactory

Профессия Python-разработчик

9 месяцев

Далее
Яндекс Практикум

Python-разработчик

10 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 168 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 221 просмотр
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 147 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 119 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 253 просмотра
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 137 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 141 просмотр
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 144 просмотра
0

ответов
Python

Простой
Что делать если turtle в python не отвечает?
- 1 подписчик
- 22 окт.
- 260 просмотров
2

ответа
Python

Простой
Не могу разобраться почему не работает код python?
- 1 подписчик
- 22 окт.
- 430 просмотров
1

ответ
Показать ещё Загружается…

Backend developer (Python, FastAPI)

BCraft

До 4 000 $

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

А можете макет датафрейма добавить в вопрос с парой-тройкой строк, похожих на реальные данные, чтоб отвечающим не сочинять и не догадываться?
Илья Т., Илья, я видимо не совсем корректно выразился... Я бы сделал что-то вроде вот этого:

import pandas as pd receipts = [11, 11, 12, 12, 12, 13, 13, 13] items = ['печеньки', 'молоко', 'молоко', 'конфетки', 'салфетки', 'молоко', 'сахар', 'кофе'] df = pd.DataFrame(zip(receipts, items), columns=['receipt_id', 'item_name']) print(df)
Алан Гибизов, Прошу прощения. Примерно так:

import pandas as pd train = pd.DataFrame({ 'receipt_id':[1,1,2,2,3,3], 'recipt_dayofweek':[4,4,5,5,6,6], 'recipt_time':['20:20','20:20','12:13','12:13','11:10','11:10'], 'item_name':['Молоко','Хлеб','Масло','Хлеб','Болоко','Хлеб'] }) print(train)

Answer 1 · 2021-03-08 14:16:23

За 30 минут посчиталось на слабеньком 2-ядерном CPU.
31.5 млн строк (в ~5 раз больше, чем у вас), до 14 предметов в чеке (у вас в среднем 1.75).
Ваш кейс посчитается за минуту-другую.

Эмуляция данных

import pandas as pd
from random choices, randint
from string import ascii_uppercase

items = [''.join(choices(ascii_uppercase, k=randint(4, 11))) for i in range(28000)]

def generate():
    for receipt_id in range(3700000):
        if receipt_id % 100000 == 0:
            print(receipt_id)
        for item in sample(items, randint(2, 15)):
            yield receipt_id, item
            
data = pd.DataFrame(generate(), columns=['receipt_id', 'item_name'])

from collections import Counter
from itertools import combinations
# from sys import intern

# В эмуляции все строки в DataFrame уже интернированы по умолчанию
# data['item_name'] = data.item_name.map(intern) 

statistics = Counter(
    pair_of_items  # Для экономии памяти можно взять hash(pair_of_items)
        for items_in_receipt in data.groupby('receipt_id', sort=False).item_name.agg(sorted)
            for pair_of_items in combinations(items_in_receipt, 2)  # сортировка сохраняется
)

Возможно, имеет смысл посмотреть в сторону Dask.

Answer 2 · 2021-03-08 12:51:50

В другом месте предложили вот такой вариант. В принципе работает, но на моём датасете требует 160Гб ОЗУ, чего у меня к сожалению нет

import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import fpgrowth

# Sample data in a similar structure to yours
df = pd.DataFrame({
    'reciept_id':[1,1,2,2,3,3],
    'reciept_dayofweek':[4,4,5,5,6,6],
    'reciept_time':['20:20','20:20','12:13','12:13','11:10','11:10'],
    'item_name':['Milk','Onion','Dill','Onion','Milk','Onion']
    
})

# Create an array of items per transactions
dataset = df.groupby(['reciept_id','reciept_dayofweek','reciept_time'])['item_name'].apply(list).values

# Create the required structure for data to go into the algorithm
te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)

# Generate frequent items sets with a support of 1/len(dataset)
# This is the same as saying give me every combination that shows up at least once
# The maximum size of any given itemset is 2, but you could change it to have any number
frequent = fpgrowth(df, min_support=1/len(dataset),use_colnames=True, max_len=2)

# Get rid of single item records
frequent = frequent[frequent['itemsets'].apply(lambda x: len(x))==2]

# Muliply support by the number of transactions to get the count of times each item set appeared
# in the original data set
frequent['frequency'] = frequent['support'] * len(dataset)

# View the results
print(frequent[['itemsets','frequency']])

Существует ли такая pandas магия?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт