Задать вопрос

Как найти разницу между двумя csv файлами по индексу используя Pandas?

Нужно (1)вычесть из цсв с айди и ссылками другой цсы с айди, (2)удалить ячейки без ссылок и (3)дубликаты.
5ba0e14d5a090055265780.png5ba0e156225ad724536266.png
Пробую вот этот метод, но он складывает данные вместо вычетания. Я так понимаю, потому что во втором файле нет поля сайты. Как быть?
df1 = pd.concat([df,cite_id]).drop_duplicates(keep=False)[['id','website']]

df - фрейм с двумя колонками.
cite_id - фрейм с одной колонкой id.
  • Вопрос задан
  • 183 просмотра
Подписаться 3 Простой Комментировать
Решения вопроса 1
@malvin Автор вопроса
На StackOver подсказали ответ.

df.dropna().drop_duplicates()
cite_id.dropna().drop_duplicates()
df[~df.id.isin(cite_id.id.values)]

P.S. вот еще нашел крутую обучалку на трубе (Английский) - Pandas Tutorial
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
SpectrumData Екатеринбург
от 200 000 до 300 000 ₽
Greenway Global Новосибирск
от 150 000 ₽
Akronix Санкт-Петербург
от 150 000 до 200 000 ₽
22 янв. 2025, в 04:08
6000 руб./за проект
21 янв. 2025, в 23:55
20000 руб./за проект
21 янв. 2025, в 23:35
80000 руб./за проект