Как сравнить столбцы по 'id' и 'Цена' двух разных DataFrame в Pandas?

Question

Shamil @Fee1in

Python

Как сравнить столбцы по 'id' и 'Цена' двух разных DataFrame в Pandas?

Имеются два csv (для наглядности пример без csv) файла разных размеров, но с уникальными номерами в столбцах , я хочу сравнить в pandas два столбца с поиском по id строки и сравнением цены в первом df1 и df2, и если цены не совпадают добавить новую колонку(цену) 'Цена 2' в df1. И соответственно если id из df2 нет df1, добавить полностью строку с этим id из df2 в df1

import pandas as pd
df1=pd.DataFrame(data=[[39000, 'Санкт-Петербург', '5 мая 02:08', 123545],
[38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
[25000, 'Новосибирск', '4 мая 17:29', 4577441],
[47990, 'Москва', '4 мая 14:04', 1245366]],
columns=['Цена', 'Город', 'Дата', 'id'])
df2=pd.DataFrame(data=[[20000, 'Красноярск', '1 мая 10:01', 953314],
[38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
[25000, 'Новосибирск', '4 мая 17:29', 4577441],
[10000, 'Санкт-Петербург', '5 мая 02:08', 123545],
[43990, 'Москва', '4 мая 14:04', 1245366],
[52000, 'Омск', '3 мая 14:10', 543642]],
columns=['Цена', 'Город', 'Дата', 'id'])

for i in len(df2['id']):
    if df2['id'].unique()[1] in df1['id'].unique(): #Проверка наличия id
        if ((df1.query(f'id==i'))['Цена']) == ((df2.query(f'id==i'))['Цена']):
#Хочу сравнить цены, но не работает

Может есть команда которая выдаст номер индекса элемента? чтобы можно было обратиться к значению столбца по индексу?

Вопрос задан более трёх лет назад
2466 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Python-разработчик: расширенный курс + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

5 комментариев

Shamil @Fee1in Автор вопроса

Подтянулись в df3 только 'id' и "Цена_y' , а как чтобы еще вместо NaN города, даты, подтянулись их значения?

Написано более трёх лет назад

zexer @zexer

Shamil, может быть так?

df3 = df1.merge(df2, how='outer', on='id', suffixes=('_df1', '_df2'))
idx = np.where(df3['Цена_df1'] == df3['Цена_df2'], True, False)
df3.loc[idx, 'Цена_df2'] = np.nan
df3

Написано более трёх лет назад

Shamil @Fee1in Автор вопроса

Почти, только дополнил еще. Но есть ли способ облегчить код начиная с idx1=df3.Город_df1.isna() ?

import pandas as pd
import numpy as np
df1=pd.DataFrame(data=[[39000, 'Санкт-Петербург', '5 мая 02:08', 123545],
[38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
[25000, 'Новосибирск', '4 мая 17:29', 4577441],
[47990, 'Москва', '4 мая 14:04', 1245366]],
columns=['Цена', 'Город', 'Дата', 'id'])
df2=pd.DataFrame(data=[[20000, 'Красноярск', '1 мая 10:01', 953314],
[38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
[25000, 'Новосибирск', '4 мая 17:29', 4577441],
[10000, 'Санкт-Петербург', '5 мая 02:08', 123545],
[43990, 'Москва', '4 мая 14:04', 1245366],
[52000, 'Омск', '3 мая 14:10', 543642]],
columns=['Цена', 'Город', 'Дата', 'id'])
df3 = df1.merge(df2, how='outer', on='id', suffixes=('_df1', '_df2'))
idx = np.where(df3['Цена_df1'] == df3['Цена_df2'], True, False)
df3.loc[idx, 'Цена_df2'] = np.nan
idx1=df3.Город_df1.isna()
idx2=df3.Дата_df1.isna()
for i in range(len(df3)): #Перенос Города и Даты в столбцы с df1 в df3 должна остаться только новая цена
    if idx1[i] == True:
        df3.loc[i,'Город_df1'] = df3.loc[i, 'Город_df2']
    if idx2 [i] == True:
        df3.loc[i, 'Дата_df1'] = df3.loc[i, 'Дата_df2']
df3.drop(['Город_df2','Дата_df2'], axis='columns', inplace=True) #удаляем не нужные столбцы

Написано более трёх лет назад

zexer @zexer

Shamil, можно сделать следующее.

import pandas as pd
import numpy as np

df1=pd.DataFrame(data=[[39000, 'Санкт-Петербург', '5 мая 02:08', 123545],
                       [38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
                       [25000, 'Новосибирск', '4 мая 17:29', 4577441],
                       [47990, 'Москва', '4 мая 14:04', 1245366]],
                       columns=['Цена', 'Город', 'Дата', 'id'])
df2=pd.DataFrame(data=[[20000, 'Красноярск', '1 мая 10:01', 953314],
                       [38990, 'Санкт-Петербург', '4 мая 15:54', 9999991],
                       [25000, 'Новосибирск', '4 мая 17:29', 4577441],
                       [10000, 'Санкт-Петербург', '5 мая 02:08', 123545],
                       [43990, 'Москва', '4 мая 14:04', 1245366],
                       [52000, 'Омск', '3 мая 14:10', 543642]],
                       columns=['Цена', 'Город', 'Дата', 'id'])

df3 = df1.merge(df2, how='outer', on='id', suffixes=('_df1', '_df2'))

idx = np.where(df3['Цена_df1'] == df3['Цена_df2'], True, False)

df3.loc[idx, 'Цена_df2'] = np.nan

idx1 = df3['Город_df1'].isna()

# Почему-то через df3.loc[idx1, ['Город_df1', 'Дата_df1']] = df3.loc[idx1, ['Город_df2', 'Дата_df2']] 
df3.loc[idx1, 'Город_df1'] = df3.loc[idx1, 'Город_df2']
df3.loc[idx1, 'Дата_df1'] = df3.loc[idx1, 'Дата_df2']
df3.drop(['Город_df2','Дата_df2'], axis='columns', inplace=True) #удаляем не нужные столбцы
df3

Написано более трёх лет назад

zexer @zexer
zexer, разобрался.

df3.loc[idx1, ['Город_df1', 'Дата_df1']] = df3.loc[idx1, ['Город_df2', 'Дата_df2']]

Данный вариант не работает, так как пандас ищет имена 'Город_df2' и 'Дата_df2' в первом срезе, а так как их там банально нет, то ничего не происходит.

В этом можно убедиться, если сделать так:

df3.loc[idx1, ['Город_df1', 'Дата_df1']] = df3.loc[idx1, ['Город_df2', 'Дата_df2']].rename(columns={'Город_df2':'Город_df1', 'Дата_df2':'Дата_df1'})

Назначив в правый срез имена как в первом, пандас найдет их в первом и подменит.

df3.loc[idx1, 'Город_df1'] = df3.loc[idx1, 'Город_df2'] df3.loc[idx1, 'Дата_df1'] = df3.loc[idx1, 'Дата_df2']

Данный вариант работает, потому что df3.loc[idx1, 'Город_df2'] это уже серия, которая не имеет индекса столбца (названия), поэтому пандас соединяет эти срезы только по индексу строк, которые совпадают в обоих срезах.
Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

+2 ещё

Простой
Можно ли полностью отказаться от vkhost в пользу VK ID для серверного приложения?
- 3 подписчика
- 14 июл.
- 164 просмотра
0

ответов
Python

+1 ещё

Простой
Почему разрывается подключение к бд на сервере?
- 1 подписчик
- 18 июн.
- 219 просмотров
1

ответ
Python

+2 ещё

Средний
Как новичку найти первые заказы на парсинг данных (Python)?
- 1 подписчик
- 17 июн.
- 603 просмотра
2

ответа
Python

+1 ещё

Сложный
Как на Python реализовать алгоритм, чтобы персонаж шёл по определенному маршруту в Genshin Impact?
- 3 подписчика
- 15 июн.
- 518 просмотров
2

ответа
Python

+1 ещё

Средний
Может кто помочь исправить код LTSM нейросети?
- 1 подписчик
- 12 июн.
- 290 просмотров
2

ответа
Python

+1 ещё

Средний
Telethon отказывается соединятся с серверами Telegram, как это обойти?
- 1 подписчик
- 10 июн.
- 538 просмотров
1

ответ
Python

+1 ещё

Простой
Почему копируется атрибут при создании нового экземпляра?
- 1 подписчик
- 08 июн.
- 220 просмотров
2

ответа
Python

+2 ещё

Простой
Как правильно настроить статические и медиафайлы на хостинге?
- 1 подписчик
- 04 июн.
- 127 просмотров
1

ответ
Python

Простой
Как отправить видео в мессенджер MAX с прогрессом загрузки Python (tqdm)?
- 2 подписчика
- 30 мая
- 335 просмотров
1

ответ
Python

Простой
Стоит ли переходить на IDE?
- 1 подписчик
- 25 мая
- 673 просмотра
5

ответов
Показать ещё Загружается…

Answer 1 · 2020-05-10 07:16:26

df3 = df1.merge(df2[['id', 'Цена']], how='outer', on='id')
idx = np.where(df3['Цена_x']==df3['Цена_y'],True, False)
df3.loc[idx, 'Цена_y'] = np.nan
df3

Это решит вашу проблему?

Как сравнить столбцы по 'id' и 'Цена' двух разных DataFrame в Pandas?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт