Объясните что лучше AWK или UNIQ в Linux (Удаления дублей с большего файла)?
Есть txt файл объем которого 107ГБ свободно на винте 109 ГБ.
Что лучше использовать чтобы быстро избавиться от дублей строк в текстовом файле.
Пробовал команду "awk '!seen[$0]++' text.txt"
Начинало все красиво и очень быстро но спустя 15-17 часов я уже видел как оно все по строчке делает и уж очень начал тупить комп.
Смотрю в сторону uniq text.txt> text_new.txt
но не знаю на сколько оно будет лучше предыдущей команды.
не выводите на экран результат и скорость вас приятно удивит ;)
awk и uniq примерно одинаковы по скорости
Я через sed и awk работаю с дампами базы данных, текстовый файл на 250 гиг... Время обработки - выделения конкретной таблицы и вырезания ее из текста - в общей сложности минут 5 после постановки задачи...
Руслан Федосеев Как я понимаю данная команда сразу по сортирует все и по удаляет дубли.
Но cat в данном примере не будет выводить разве весь текст в термин ?
П.С. Я знаю что cat может и записывать текст в файл, но как в данном примере ?
Руслан Федосеев: Kali linux, русский отображает норм, с украинским не знаю.
Единственное что криво так это в GRUB русские символы корявые
Примерно такая картина: