Как удалить похожие строки из таблицы в Pandas, Python?

Question

maieve @maieve

Pandas

Как удалить похожие строки из таблицы в Pandas, Python?

Есть Excel табличка на много тысяч строк с 1 столбцом, которая содержит URL'ы. Примерный формат:

A
1 http://123.ru/
2 http://lalala.ru/
3 http://lalala.ru/qwe
4 http://lalala.ru/12rwesf
5 http://bebe.ru/
...
15000 http://lololo.ru/

Моя задача: удалить из excel все строки, которые не являются уникальными доменами, то есть, если из примера у нас идут строки 2, 3, 4, то нам надо удалить строки 3 и 4, так как они содержат строку 2, 2 строка останется в таблице.
Пустые строки потом удалю сам в эксельке

Как я это вижу: с использование Pandas проходимся по каждой строке и проверяем, содержится ли она во всех остальных строках. Если содержится - то все остальные удаляем, изначальную оставляем.

Вопрос задан более двух лет назад
422 просмотра

5 комментариев

Подписаться 1 Средний 5 комментариев

Максим Припадчев @Maksim_64

Оставьте только тег pandas, придет модератор и все равно удалит. В pandas не используют циклы для процессинга данных. Задача ваша элементарная решается в одну строчку кода.

Написано более двух лет назад
mayton2019 @mayton2019

Пустые строки потом удалю сам в эксельке

Зачем тогда Пандас? Делай все в экцельках.

Твоя задача решается примерно таким конвейером. Нужно сделать функцию (или лямбду) которая выделяет домен.
Применить эту фунцию к каждой datarow и в конце применить uniq.

Написано более двух лет назад
Модератор @TosterModerator

Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4

Написано более двух лет назад
Модератор @TosterModerator

Фрагменты кода надо размещать в виде текста и оборачивать тэгом code для корректного отображения. Удобно делать кнопкой </>
Это обязательно, см.п.3.8 Регламента.
Сюда же относится traceback, ввод и вывод в консоли и другая структурированная текстовая инфа.

Написано более двух лет назад
Модератор @TosterModerator

Когда вы регистрировались, вы обещали выполнять Регламент. Ваши сообщения регулярно нарушают сразу несколько параграфов Регламента.
Если вы будете продолжать нарушать Регламент, ваши вопросы могут быть удалены, а аккаунт заблокирован модераторами временно или навсегда.
Будьте благоразумны.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

+1 ещё

Простой
Как удалить пустые поля в Excel?
- 1 подписчик
- 14 мар.
- 174 просмотра
0

ответов
Pandas

Простой
Как пронумеровать столбец excel в python?
- 1 подписчик
- 18 февр.
- 147 просмотров
3

ответа
NumPy

+1 ещё

Средний
Можно ли через numpy или pandas удалить строки в многомерном массиве, элементы которого содержат два и более разных значений?
- 1 подписчик
- 28 янв.
- 114 просмотров
1

ответ
Pandas

Простой
Почему возникает ошибка «length mismatch: expected axis has 3 elements, new values have 4 elements»?
- 1 подписчик
- 16 дек. 2024
- 151 просмотр
2

ответа
Pandas

Простой
Как сравнить 2 df в Пандасе?
- 1 подписчик
- 13 нояб. 2024
- 113 просмотров
1

ответ
Pandas

Простой
Как вставить строчки в exel через pandas?
- 1 подписчик
- 03 нояб. 2024
- 31 просмотр
1

ответ
Pandas

Простой
Как объединить две таблицы в pandas?
- 1 подписчик
- 24 окт. 2024
- 70 просмотров
1

ответ
Pandas

Простой
Как настроить порядок столбцов в таблице в pandas python?
- 1 подписчик
- 24 окт. 2024
- 98 просмотров
1

ответ
Pandas

Простой
Метод .query Pandas, Почему возникает ошибка Too many levels: Index has only 1 level, not 3?
- 1 подписчик
- 15 окт. 2024
- 51 просмотр
1

ответ
Pandas

Средний
Почему данные не сортируются по дате?
- 1 подписчик
- 08 окт. 2024
- 66 просмотров
1

ответ
Показать ещё Загружается…

Инженер технической поддержки Check Point

Wanted. • Москва

До 200 000 ₽

IT-рекрутер

Wanted. • Москва

от 60 000 до 120 000 ₽

Специалист по подбору персонала (IT)

Wanted. • Москва

от 60 000 до 120 000 ₽

Оставьте только тег pandas, придет модератор и все равно удалит. В pandas не используют циклы для процессинга данных. Задача ваша элементарная решается в одну строчку кода.
Пустые строки потом удалю сам в эксельке

Зачем тогда Пандас? Делай все в экцельках.

Твоя задача решается примерно таким конвейером. Нужно сделать функцию (или лямбду) которая выделяет домен.
Применить эту фунцию к каждой datarow и в конце применить uniq.
Не надо ставить как можно больше тэгов. Лучше оставить один, но конкретный, с которым проблема.
См.п.3.1 Регламента. Также обратите внимание на п.3.4
Фрагменты кода надо размещать в виде текста и оборачивать тэгом code для корректного отображения. Удобно делать кнопкой </>
Это обязательно, см.п.3.8 Регламента.
Сюда же относится traceback, ввод и вывод в консоли и другая структурированная текстовая инфа.
Когда вы регистрировались, вы обещали выполнять Регламент. Ваши сообщения регулярно нарушают сразу несколько параграфов Регламента.
Если вы будете продолжать нарушать Регламент, ваши вопросы могут быть удалены, а аккаунт заблокирован модераторами временно или навсегда.
Будьте благоразумны.

Answer 1 · 2023-04-14 16:30:44

Ну смотрите первое мы имеем str акссесор который позволяет нам осуществить для каждой ячейки как будто она строка в python. Там огромное количество методов и можно даже сложный regex написать если нужно, и на основании его оставить только нужные строки. Второе у pandas есть метод drop_duplicates(), он удаляет все не уникальные строки для одной колонки или даже для комбинации. По желанию можно задать ему параметры и оставить только первое пявление из неуникальных значений или последнее.

Способов для решение вашей задачи на самом деле много. Ну вот парочку на основании той информации что
вами представлена. То есть для представленного вами примера они сработают. Если же это не сработает для всех строк я то не знаю их всех и ориентируюсь на то что представленно вами, то суть, как решать на изменится просто возможно нужно будет добавить какое то условие или какой нибудь regex. Но суть решения не изменится.

df = pd.DataFrame({
    'urls':['123.ru','lalala.ru','lalala.ru/qwe','lalala.ru/12rwse','bebe.ru'],
    'other data':[1,1,1,1,1]
})
# Первый способ 
new_df = df.loc[df['urls'].str.split('/').str[0].drop_duplicates().index]
print(new_df)
# Второй способ
new_df = df[~df['urls'].str.contains('/')].drop_duplicates()
print(new_df)

Первый способ более общий мы разделяем по слешу берем первый элемент (домен), и избавляемся от всех повторяющихся строк. (Более надежно)

Второй способ совсем слабая проверка мы выбираем те строки которые не содержат слеша, предполагая что первый раз (домен) встречается без слеша. (НЕ надежно)

Если же оба примера не покрывают всех случаев (ЧТО скорее всего) то по этому же принципу нужно писать более сложное условие, и все.

Ну вот автор уже и вопрос подредактировал что делает второй способ решения не рабочим да и первый надо менять тоже.

df = pd.DataFrame({
    'urls':['http://123.ru/','http://lalala.ru','http://lalala.ru/qwe',
            'http://lalala.ru/12rwse','http://bebe.ru'],
    'other data':[1,1,1,1,1]
})
new_df = df.loc[df['urls'].str.split('//').str[1].str.split('/').str[0].drop_duplicates().index]
print(new_df)

Как удалить похожие строки из таблицы в Pandas, Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт