Как очистить огромный txt от дубликатов?

Question

Ivan_Google @Ivan_Google

Как очистить огромный txt от дубликатов?

нужно очистить файл .txt весом в 25гб от одинаковых строк
пример:

123
456qwerty
123
jsdgf6

Вопрос задан более трёх лет назад
1027 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

cmd/bat

Средний
Ошибка в bat скрипте который изменяет протокол ip версии 4 (tcp/IPv4), как исправить?
- 1 подписчик
- 15 апр.
- 77 просмотров
2

ответа
cmd/bat

Простой
Как сделать в Bat-нике при нажатии 1 действие, при втором нажатии 2 действие?
- 1 подписчик
- 08 апр.
- 97 просмотров
2

ответа
cmd/bat

+1 ещё

Средний
Можно ли получать каталоги по FTP через CMD?
- 1 подписчик
- 03 апр.
- 91 просмотр
4

ответа
Python

+3 ещё

Средний
Какие существуют библиотеки Python для комплексной обработки текста, включая исправление ошибок и удаление лишних символов?
- 1 подписчик
- 01 апр.
- 83 просмотра
1

ответ
cmd/bat

Простой
Как убрать последний бэкслеш в батнике из переменной?
- 1 подписчик
- 26 мар.
- 75 просмотров
1

ответ
Windows

+2 ещё

Средний
Как исправить неожиданное поведение при использовании ssh?
- 2 подписчика
- 17 мар.
- 124 просмотра
0

ответов
cmd/bat

Простой
Как получить размер файла используя curl и sftp соединение?
- 1 подписчик
- 14 мар.
- 71 просмотр
1

ответ
Windows

+4 ещё

Простой
Как запустить фоновый процесс из popen под win64?
- 1 подписчик
- 12 мар.
- 140 просмотров
0

ответов
Автоматизация обработки текста

+1 ещё

Сложный
Кто знает user-friendly инструмент для поиска по файлам с помощью языковых моделей (RAG)?
- 3 подписчика
- 11 мар.
- 121 просмотр
2

ответа
Windows

+3 ещё

Простой
Замена инструмента для смены пароля локального администратора?
- 3 подписчика
- 05 мар.
- 374 просмотра
1

ответ
Показать ещё Загружается…

QA Engineer

Leningrad Media • Москва

от 150 000 до 170 000 ₽

Веб-дизайнер

Stakewolle

от 40 000 до 60 000 ₽

PHP Developer

YCLIENTS • Москва

от 200 000 до 350 000 ₽

Перекрасить 2 вкладыш для типографии в новый цвет

18 апр. 2024, в 15:55

500 руб./за проект

Починить лайки и удаление сторис на React Native

18 апр. 2024, в 15:52

2500 руб./за проект

Требуется переводчик на португальский

18 апр. 2024, в 15:39

500 руб./в час

Отсеять повторяющиеся пароли пользователей?

Answer 1 · 2020-07-20 19:52:30

Модифицированный вариант Stalker_RED в котором вместо DISTINCT построить схему с первичным ключом varchar, в которую занести данные из 1-й таблицы при помощи запроса
Insert ignore into ... select from ...

Answer 2 · 2020-07-20 18:10:21

Не уверен, что это самый быстрый велосипед, но точно сработает, в случае, если в твоем компе нету 25 гигов памяти:)
загнать в базу (COPY FROM для postgress или LOAD DATA INFILE для мускула) а потом выбрать c DISTINCT.
Таблица во время загрузки данных ессно без индексов должна быть.

UPD: да, distinct тоже сильно грузит, insert ... ignore наверное будет быстрее.

Answer 3 · 2020-07-20 17:52:39

качаешь TextPad
https://www.textpad.com/home

потом F9

и галку "delete duplicates"

когда будет открывать файл - подвиснет, строки процесса у него нет, в отличие от EmEditor, жди пока откроет

если не откроет - комп не тянет - тогда другими методами
типа такого

Как очистить огромный txt от дубликатов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт