Как быстро пройтись по всем строкам в Python Pandas?

Question

AlexShilov @AlexShilov

Как быстро пройтись по всем строкам в Python Pandas?

Доброго времени суток, друзья. У меня есть более 3 млн. строк в ДатаФрэйме. Мне необходимо взять первого клиента, посмотреть все его операции за каждый месяц, занести все эти операции в другой ДатаФрэйм, добавив некоторые данные на основе операций. И затем так пройтись по всем клиентам. 3 млн. строк - это все операции, всех клиентов.

Как реализовал это я

Я формирую ДатаФрэйм по одному клиента и через itertuples пробегаю по всем его операциям. Затем удаляю все, что связано с этим клиентом из ДатаФрэйма, беру другого и все по накатанной. Но этот алгоритм очень медленный. Может подскажите что можно сделать, чтобы обработать таким образом данные значительно быстрее.

Заранее благодарю!

Вопрос задан более трёх лет назад
596 просмотров

12 комментариев

Подписаться 2 Простой 12 комментариев

zexer @zexer

Будет отлично, если вы продемонстрируете, какие манипуляции вы производите, чтобы понимать, как это можно оптимизировать.
Приведите в миниатюре то, что вы делаете, пожалуйста.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса
zexer, спасибо за отклик.

Смотрю остаток баллов по бонусной карте. Вычитаю из предыдущего значения потраченное кол-во.

Через функцию смотрю, как часто клиент посещает магазин. Смотрю сколько раз посетил и присваиваю ему определенную категорию. Допустим, если < 5 раз / мес., то категория 1 и т.д.

Записываю данные в Фрэйм следующим образом: Клиент | Пред. категория | Новая категория | Количество баллов осталось | Количество баллов было

Записываю второй Фрэйм следующим образом: Клиент | Пред. категория | Новая категория | Количество баллов потратилось| Количество баллов было
Написано более трёх лет назад
zexer @zexer

AlexShilov, я имел ввиду привести код, чтобы было понятно.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса

zexer, точнее 3, 4 пункт записываю строки с помощью concat все в один Фрэйм, но они отличаются по предпоследнему значению.

Написано более трёх лет назад
Влад Григорьев @Vaindante

AlexShilov, это по прежнему не похоже на код

Написано более трёх лет назад

AlexShilov @AlexShilov Автор вопроса

zexer, Влад Григорьев,

def tenor(ltt):
    if ltt <= 24*30: return 24
    elif ltt <= 36*30: return 36
    else: return 60

def buckclass(odues):
    # Определение класса
    if odues == 0: return 0
    elif 0 < odues <= 30: return 1
    elif 30 < odues <= 60: return 2
    elif 60 < odues <= 90: return 3
    elif 90 < odues <= 120: return 4
    else: return 5

datareport = pd.DataFrame({'ODATE': {0:0},
                           'TENOR': {0:0},
                           'VDATE': {0:0},
                           'R': {0:0},
                           'RC': {0:0},
                           'DE': {0:0},
                           'I': {0:0},
                           'DEB': {0:0},
                           'D': {0:0}})
for nc in data.nc.unique():
    # Просматриваем каждый ID

    fordata = data[data.nc == nc].sort_values(by='vdate')

    onrow = fordata.iloc[0,:]
    for row in fordata.itertuples(index=False):
        if (onrow.odate == row.odate) & (onrow.vdate == row.vdate) & (onrow.ball == row.ball):
            ball_old = onrow.ball
            bucket_class_old = 0

        difference = ball_old - row.ball

        datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate},
                                                          'TENOR': {0:tenor(row.ltt)},
                                                          'VDATE': {0:row.vdate},
                                                          'R': {0:bucket_class_old},
                                                          'RC': {0:buckclass(row.odues)},
                                                          'DE': {0:row.ball},
                                                          'I': {0:0},
                                                          'DEB': {0:ball_old},
                                                          'D': {0:0}})])

        datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate},
                                                          'TENOR': {0:tenor(row.ltt)},
                                                          'VDATE': {0:row.vdate},
                                                          'R': {0:bucket_class_old},
                                                          'RC': {0:100},
                                                          'DE': {0:difference},
                                                          'I': {0:0},
                                                          'DEB': {0:ball_old},
                                                          'D': {0:0}})])

        ball_old = row.ball
        bucket_class_old = buckclass(row.odues)

Написано более трёх лет назад

AlexShilov @AlexShilov Автор вопроса

Влад Григорьев, спасибо за отклик. Выше привел фрагмент кода.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса

zexer, выше привел пример кода.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса

Влад Григорьев, это по прежнему не похоже на ответ.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса

zexer, теперь понятно?

Написано более трёх лет назад
zexer @zexer

AlexShilov, единственное, что понятно, так это то, что вместо например data.nc нужно писать data['nc'], это правило хорошего тона, так как когда вы пишете data.nc не понятно, nc это столбец или nc это какой-то метод у датафрейма.

Написано более трёх лет назад
AlexShilov @AlexShilov Автор вопроса

zexer, спасибо за ценный совет, в будущем учту.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 3

4 комментария

AlexShilov @AlexShilov Автор вопроса

Спасибо.

Написано более трёх лет назад

zexer @zexer

AlexShilov, а еще быстрее будет через массивы numpy, данный код выполняется за 385 микросекунд.

array1 = np.array([[0,0,0,0,0,0,0,0,0]])
array2 = np.array([[0,1,2,3,4,5,6,7,8]])
columns=['ODATE', 'TENOR', 'VDATE', 'R', 'RC', 'DE', 'I', 'DEB', 'D']
df = pd.DataFrame(np.append(array1, array2, axis=0), columns=columns)

Написано более трёх лет назад

AlexShilov @AlexShilov Автор вопроса

zexer, спасибо.

Написано более трёх лет назад
zexer @zexer

AlexShilov, Получилось выиграть в скорости? Интересно даже наблюдать за ситуацией)

Написано более трёх лет назад

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+1 ещё

Средний
Как сделать чтоб аккаунт писал при подписке на канал?
- 1 подписчик
- вчера
- 90 просмотров
0

ответов
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 2 подписчика
- 14 окт.
- 461 просмотр
2

ответа
Python

+1 ещё

Сложный
Как автоматизировать работу с сайтом используя Camoufox библиотеку?
- 2 подписчика
- 14 окт.
- 83 просмотра
0

ответов
Python

+1 ещё

Простой
FastAPI Prometheus_fastapi_instrumentator где мне следует разместить?
- 1 подписчик
- 09 окт.
- 135 просмотров
1

ответ
Python

+1 ещё

Простой
Пытаюсь пропустить число 10 двумя способами.(правильный второй код) Почему эти два кода дают разный результат?
- 1 подписчик
- 09 окт.
- 502 просмотра
2

ответа
Python

+2 ещё

Простой
В каком слое DTO объект преобразовывать в словарь перед сохранением в БД?
- 1 подписчик
- 08 окт.
- 139 просмотров
2

ответа
Python

+1 ещё

Простой
Visual Studio Code Имя «pipenv» не распознано как имя командлета?
- 1 подписчик
- 08 окт.
- 115 просмотров
1

ответ
Python

+2 ещё

Простой
Как реализовать асинхронность + многопоточность одновременно?
- 5 подписчиков
- 08 окт.
- 526 просмотров
1

ответ
Python

+1 ещё

Средний
Как парсить фотографии gspread?
- 1 подписчик
- 06 окт.
- 181 просмотр
1

ответ
Python

+1 ещё

Простой
Python kafka не видит headers?
- 1 подписчик
- 29 сент.
- 144 просмотра
1

ответ
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python разработчик

ITK academy • Казань

от 75 000 ₽

Python разработчик

Космос Про Медиа • Москва

от 180 000 до 200 000 ₽

Будет отлично, если вы продемонстрируете, какие манипуляции вы производите, чтобы понимать, как это можно оптимизировать.
Приведите в миниатюре то, что вы делаете, пожалуйста.
zexer, спасибо за отклик.

Смотрю остаток баллов по бонусной карте. Вычитаю из предыдущего значения потраченное кол-во.

Через функцию смотрю, как часто клиент посещает магазин. Смотрю сколько раз посетил и присваиваю ему определенную категорию. Допустим, если < 5 раз / мес., то категория 1 и т.д.

Записываю данные в Фрэйм следующим образом: Клиент | Пред. категория | Новая категория | Количество баллов осталось | Количество баллов было

Записываю второй Фрэйм следующим образом: Клиент | Пред. категория | Новая категория | Количество баллов потратилось| Количество баллов было
AlexShilov, я имел ввиду привести код, чтобы было понятно.
zexer, точнее 3, 4 пункт записываю строки с помощью concat все в один Фрэйм, но они отличаются по предпоследнему значению.
AlexShilov, это по прежнему не похоже на код
zexer, Влад Григорьев,

def tenor(ltt): if ltt <= 24*30: return 24 elif ltt <= 36*30: return 36 else: return 60 def buckclass(odues): # Определение класса if odues == 0: return 0 elif 0 < odues <= 30: return 1 elif 30 < odues <= 60: return 2 elif 60 < odues <= 90: return 3 elif 90 < odues <= 120: return 4 else: return 5 datareport = pd.DataFrame({'ODATE': {0:0}, 'TENOR': {0:0}, 'VDATE': {0:0}, 'R': {0:0}, 'RC': {0:0}, 'DE': {0:0}, 'I': {0:0}, 'DEB': {0:0}, 'D': {0:0}}) for nc in data.nc.unique(): # Просматриваем каждый ID fordata = data[data.nc == nc].sort_values(by='vdate') onrow = fordata.iloc[0,:] for row in fordata.itertuples(index=False): if (onrow.odate == row.odate) & (onrow.vdate == row.vdate) & (onrow.ball == row.ball): ball_old = onrow.ball bucket_class_old = 0 difference = ball_old - row.ball datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate}, 'TENOR': {0:tenor(row.ltt)}, 'VDATE': {0:row.vdate}, 'R': {0:bucket_class_old}, 'RC': {0:buckclass(row.odues)}, 'DE': {0:row.ball}, 'I': {0:0}, 'DEB': {0:ball_old}, 'D': {0:0}})]) datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate}, 'TENOR': {0:tenor(row.ltt)}, 'VDATE': {0:row.vdate}, 'R': {0:bucket_class_old}, 'RC': {0:100}, 'DE': {0:difference}, 'I': {0:0}, 'DEB': {0:ball_old}, 'D': {0:0}})]) ball_old = row.ball bucket_class_old = buckclass(row.odues)
Влад Григорьев, спасибо за отклик. Выше привел фрагмент кода.
Влад Григорьев, это по прежнему не похоже на ответ.
AlexShilov, единственное, что понятно, так это то, что вместо например data.nc нужно писать data['nc'], это правило хорошего тона, так как когда вы пишете data.nc не понятно, nc это столбец или nc это какой-то метод у датафрейма.
zexer, спасибо за ценный совет, в будущем учту.

Answer 1 · 2020-09-23 17:16:21

Судя по всему здесь вы создаете однострочный датафрейм, однако можно создать обычную серию (pd.Series)

datareport = pd.DataFrame({'ODATE': {0:0},
                           'TENOR': {0:0},
                           'VDATE': {0:0},
                           'R': {0:0},
                           'RC': {0:0},
                           'DE': {0:0},
                           'I': {0:0},
                           'DEB': {0:0},
                           'D': {0:0}}

Далее вы этот однострочный датафрейм через pd.concat присоединяете к еще одному однострочному датафрейму:

datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate},
                                                          'TENOR': {0:tenor(row.ltt)},
                                                          'VDATE': {0:row.vdate},
                                                          'R': {0:bucket_class_old},
                                                          'RC': {0:buckclass(row.odues)},
                                                          'DE': {0:row.ball},
                                                          'I': {0:0},
                                                          'DEB': {0:ball_old},
                                                          'D': {0:0}})])

а после этого еще раз к одному однострочному датафрейму

datareport = pd.concat([datareport, pd.DataFrame({'ODATE': {0:row.odate},
                                                          'TENOR': {0:tenor(row.ltt)},
                                                          'VDATE': {0:row.vdate},
                                                          'R': {0:bucket_class_old},
                                                          'RC': {0:100},
                                                          'DE': {0:difference},
                                                          'I': {0:0},
                                                          'DEB': {0:ball_old},
                                                          'D': {0:0}})])

Вместо них тоже можно использовать pd.Series.
Данный код отрабатывает в среднем за 2.5 миллисикунды

ser1 = pd.Series({'ODATE': 0,
           'TENOR': 0,
           'VDATE':0,
           'R': 0,
           'RC': 0,
           'DE': 0,
           'I': 0,
           'DEB': 0,
           'D': 0})
ser2 = pd.Series({'ODATE': 0,
           'TENOR': 1,
           'VDATE':2,
           'R': 3,
           'RC': 4,
           'DE': 5,
           'I': 6,
           'DEB': 7,
           'D': 8})
df = pd.concat([ser1, ser2], axis=1).T

В то время как данный код отрабатывает в среднем за 5.2 миллисекунды, при этом результат аналогичен.

datareport1 = pd.DataFrame({'ODATE': {0:0},
                           'TENOR': {0:0},
                           'VDATE': {0:0},
                           'R': {0:0},
                           'RC': {0:0},
                           'DE': {0:0},
                           'I': {0:0},
                           'DEB': {0:0},
                           'D': {0:0}})
datareport2 = pd.DataFrame({'ODATE': {0:1},
                           'TENOR': {0:2},
                           'VDATE': {0:3},
                           'R': {0:4},
                           'RC': {0:5},
                           'DE': {0:6},
                           'I': {0:7},
                           'DEB': {0:8},
                           'D': {0:9}})
df2 = pd.concat([datareport1, datareport2])

Так что можете попробовать выиграть в скорости, перебравшись с однострочных датафреймов на серии.

Answer 2 · 2020-09-23 17:30:10

Можно попробовать обычную базу данных,
но данные запихнуть в оперативную память.
Проиндексировать по клиенту.
Гуглить "sqlite in memory"

Answer 3 · 2020-09-23 17:16:39

Единственная на текущий момент оптимизация, которая мне пришла на ум, это убрать операцию конкатенации и вместо ее создать массив типа:

array_data = []

'''
    Тут находиться код программы
'''

array_data.append([row['odate'], tenor(row(ltt)), row['vdate'], bucket_class_old, buckclass(row['odues']), row['ball'], 0, ball_old, 0])
array_data.append([row['odate'], tenor(row(ltt)), row['vdate'], bucket_class_old, 100, difference, 0, ball_old, 0])

'''
    Тут остальной код программы
'''

pandas.DataFrame(array_data)

Как быстро пройтись по всем строкам в Python Pandas?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт