Как очистить огромный txt от дубликатов?

Question

Ivan_Google @Ivan_Google

Как очистить огромный txt от дубликатов?

нужно очистить файл .txt весом в 25гб от одинаковых строк
пример:

123
456qwerty
123
jsdgf6

Вопрос задан более трёх лет назад
1518 просмотров

1 комментарий

Подписаться 1 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

1C-разработчик

8 месяцев

Далее
Нетология

Python-разработчик с нуля

6 месяцев

Далее

Решения вопроса 2

Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

cmd/bat

Простой
Как запустить несколько команд в одном bat файле?
- 1 подписчик
- 14 нояб.
- 192 просмотра
3

ответа
cmd/bat

+1 ещё

Простой
Как запустить команды в свеже запушенной CMD через PowerShell?
- 1 подписчик
- 12 нояб.
- 174 просмотра
3

ответа
cmd/bat

+2 ещё

Средний
Как удалить все версии приложения VinteoDesktop на всех рабочих станциях предприятия, и установить последнюю версию?
- 1 подписчик
- 30 сент.
- 139 просмотров
1

ответ
cmd/bat

Простой
Как открывать батник скрытно?
- 1 подписчик
- 06 авг.
- 265 просмотров
0

ответов
Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг.
- 180 просмотров
2

ответа
Python

+3 ещё

Простой
Как с помощью Kaspersky Security Center запустить скрипт?
- 1 подписчик
- 04 авг.
- 564 просмотра
0

ответов
Шрифты

+1 ещё

Простой
Как поменять шрифт в cmd на nerd font?
- 1 подписчик
- 07 июл.
- 273 просмотра
1

ответ
Компьютерные сети

+1 ещё

Простой
Не сбрасывается протокол TCP/IP на Windows 10 PRO, можно ли это исправить?
- 1 подписчик
- 04 июл.
- 314 просмотров
2

ответа
Windows

+1 ещё

Простой
Скрипт на CMD выдаёт ошибку по операнду. Где я допустил ошибку?
- 1 подписчик
- 01 июл.
- 174 просмотра
1

ответ
Windows

+2 ещё

Средний
Как отключить возможность запуска командной строки на экране блокировки windows 11?
- 1 подписчик
- 07 июн.
- 903 просмотра
2

ответа
Показать ещё Загружается…

WordPress (PHP, HTML/CSS) разработчик

Epiic

от 90 000 ₽

Tech Lead Vue Frontend

Icons8

от 350 000 ₽

Маркетинговый аналитик

МТС Web Services • Грозный

от 60 000 ₽

Отсеять повторяющиеся пароли пользователей?

Answer 1 · 2020-07-20 19:52:30

Модифицированный вариант Stalker_RED в котором вместо DISTINCT построить схему с первичным ключом varchar, в которую занести данные из 1-й таблицы при помощи запроса
Insert ignore into ... select from ...

Answer 2 · 2020-07-20 18:10:21

Не уверен, что это самый быстрый велосипед, но точно сработает, в случае, если в твоем компе нету 25 гигов памяти:)
загнать в базу (COPY FROM для postgress или LOAD DATA INFILE для мускула) а потом выбрать c DISTINCT.
Таблица во время загрузки данных ессно без индексов должна быть.

UPD: да, distinct тоже сильно грузит, insert ... ignore наверное будет быстрее.

Answer 3 · 2020-07-20 17:52:39

качаешь TextPad
https://www.textpad.com/home

потом F9

и галку "delete duplicates"

когда будет открывать файл - подвиснет, строки процесса у него нет, в отличие от EmEditor, жди пока откроет

если не откроет - комп не тянет - тогда другими методами
типа такого

Как очистить огромный txt от дубликатов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт