Задать вопрос

Как найти разницу между двумя csv файлами по индексу используя Pandas?

Нужно (1)вычесть из цсв с айди и ссылками другой цсы с айди, (2)удалить ячейки без ссылок и (3)дубликаты.
5ba0e14d5a090055265780.png5ba0e156225ad724536266.png
Пробую вот этот метод, но он складывает данные вместо вычетания. Я так понимаю, потому что во втором файле нет поля сайты. Как быть?
df1 = pd.concat([df,cite_id]).drop_duplicates(keep=False)[['id','website']]

df - фрейм с двумя колонками.
cite_id - фрейм с одной колонкой id.
  • Вопрос задан
  • 178 просмотров
Подписаться 3 Простой Комментировать
Решения вопроса 1
@malvin Автор вопроса
На StackOver подсказали ответ.

df.dropna().drop_duplicates()
cite_id.dropna().drop_duplicates()
df[~df.id.isin(cite_id.id.values)]

P.S. вот еще нашел крутую обучалку на трубе (Английский) - Pandas Tutorial
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы