Как удалить все строки-дубликаты из txt файла?

Question

deqsyYY @deqsyYY

Python

Как удалить все строки-дубликаты из txt файла?

в общем, надо удалить все строки-дубликаты из txt файла и записать его в новый, регистр важен, то есть если есть две строки: GL и gL, то gL является дубликатом

Вопрос задан более трёх лет назад
1355 просмотров

1 комментарий

Подписаться 4 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

2 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Ошибка IndexError: string index out of range в написании реализации системы Линденмайера – от чего происходит и как исправить?
- 1 подписчик
- вчера
- 65 просмотров
1

ответ
Python

+1 ещё

Простой
Как сделать рассылку в viber в фоне?
- 1 подписчик
- 22 нояб.
- 87 просмотров
0

ответов
Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 224 просмотра
1

ответ
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 264 просмотра
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 167 просмотров
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 148 просмотров
1

ответ
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 268 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 155 просмотров
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 146 просмотров
3

ответа
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 160 просмотров
0

ответов
Показать ещё Загружается…

Python Developer

Strikt

от 100 000 до 150 000 ₽

Python Software Engineer - ML/LLM

Ennabl • Лимассол

от 650 000 ₽

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

регистр важен, то есть если есть две строки: GL и gL, то gL является дубликатом

Выбрать одно.

Answer 1 · 2021-01-10 22:57:33

Прочитать файл, поместить строки в список, удалить из списка дубликаты, записать строки из списка в файл.

UPD: можно использовать OrderedDict для быстрого поиска дубликатов без потери порядка следования

from collections import OrderedDict

lines = ["GL", "gL", "aa", "bb"]
print("Before:")
print(lines)

unique_lines = OrderedDict()
for line in lines:
    normalized_line = line.capitalize()
    if (normalized_line not in unique_lines.keys()):
        unique_lines[normalized_line] = line

print("\nAfter:")
print(unique_lines.values())

В моём варианте оригинальной строкой будет считаться первая попавшаяся, а сравниваться строки будут без учёта регистра

Answer 2 · 2021-01-10 23:36:13

Зависит от размера файла. Если строк не очень много и они поместятся в оперативу то всё можно релать в 3 строки

lines = open(file_path).read().split('\n')
unique_lines = list(set([x.lower() for x in lines]))
open(file_path2, 'w').write('\n'.join(unique_lines))

В этом случае в новый файл сохранятся все строки в нижнем регистре.
Если надо сохранить регистр первой найденной комбинации то можно сделать хитрей

from fnmatch import fnmatch
lines = [line.strip() for line in open(file_path).readlines()]
unique_lines = []
[unique_lines.append(item) for item in lines if not any([fnmatch(item, x) for x in unique_lines])]
open(file_path2, 'w').write('\n'.join(unique_lines))

Если файл весит гигобайты или строки километровые, то придется делать еще хитрей, через временное хранилище, хеши или еще как-то. В условии задачи про это ничего нет.

Как удалить все строки-дубликаты из txt файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт