@Ivan_Google

Как очистить огромный txt от дубликатов?

нужно очистить файл .txt весом в 25гб от одинаковых строк
пример:
123
456qwerty
123
jsdgf6
  • Вопрос задан
  • 89 просмотров
Решения вопроса 2
2ord
@2ord
продвинутый чайник
Модифицированный вариант Stalker_RED в котором вместо DISTINCT построить схему с первичным ключом varchar, в которую занести данные из 1-й таблицы при помощи запроса
Insert ignore into ... select from ...
Ответ написан
Stalker_RED
@Stalker_RED
Не уверен, что это самый быстрый велосипед, но точно сработает, в случае, если в твоем компе нету 25 гигов памяти:)
загнать в базу (COPY FROM для postgress или LOAD DATA INFILE для мускула) а потом выбрать c DISTINCT.
Таблица во время загрузки данных ессно без индексов должна быть.

UPD: да, distinct тоже сильно грузит, insert ... ignore наверное будет быстрее.
Ответ написан
Пригласить эксперта
Ответы на вопрос 1
dimonchik2013
@dimonchik2013
...а ну-ка пыль сдуй отсюда...
качаешь TextPad
https://www.textpad.com/home

потом F9

и галку "delete duplicates"

когда будет открывать файл - подвиснет, строки процесса у него нет, в отличие от EmEditor, жди пока откроет

если не откроет - комп не тянет - тогда другими методами
типа такого
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы