Объясните что лучше AWK или UNIQ в Linux (Удаления дублей с большего файла)?

Question

Chvalov @Chvalov

Объясните что лучше AWK или UNIQ в Linux (Удаления дублей с большего файла)?

Есть txt файл объем которого 107ГБ свободно на винте 109 ГБ.
Что лучше использовать чтобы быстро избавиться от дублей строк в текстовом файле.

Пробовал команду "awk '!seen[$0]++' text.txt"
Начинало все красиво и очень быстро но спустя 15-17 часов я уже видел как оно все по строчке делает и уж очень начал тупить комп.

Смотрю в сторону uniq text.txt> text_new.txt
но не знаю на сколько оно будет лучше предыдущей команды.

Кто что сможет посоветовать ?

Вопрос задан более трёх лет назад
1343 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Учебный центр «Микротест»

Linux уровень 4. Диагностика и устранение неполадок в Linux (Линукс)

1 неделя

Далее
Академия Codeby

Курс «Основы кибербезопасности. Практический курс для новичков»

22 недели

Далее
Слёрм

Базовое администрирование Linux серверов с FirstVDS

1 месяц

Далее

Решения вопроса 3

8 комментариев

Руслан Федосеев @martin74ua Куратор тега Linux

да, uniq будет быстрее работать с отсортированным файлом

Написано более трёх лет назад
Chvalov @Chvalov Автор вопроса

Руслан Федосеев Можете написать команду для удаления дублей чтобы без вывода на экран.
той которой вы пользуетесь, благодарен !

Написано более трёх лет назад
Руслан Федосеев @martin74ua Куратор тега Linux

cat file1.txt | sort | uniq > file2.txt

Написано более трёх лет назад
Chvalov @Chvalov Автор вопроса

Руслан Федосеев Как я понимаю данная команда сразу по сортирует все и по удаляет дубли.
Но cat в данном примере не будет выводить разве весь текст в термин ?

П.С. Я знаю что cat может и записывать текст в файл, но как в данном примере ?

Написано более трёх лет назад
Руслан Федосеев @martin74ua Куратор тега Linux

| называется конвейером. Он вывод команды слева передает на вход команды справа

Написано более трёх лет назад
Chvalov @Chvalov Автор вопроса

Руслан Федосеев: Забыл спросить а uniq и sort нормально дружат с кириллицей ?

Написано более трёх лет назад
Руслан Федосеев @martin74ua Куратор тега Linux

у вас дистрибутив без man ? ;)
Нормально дружат. В терминале локаль настроена? Все видно корректно?

Написано более трёх лет назад
Chvalov @Chvalov Автор вопроса

Руслан Федосеев: Kali linux, русский отображает норм, с украинским не знаю.
Единственное что криво так это в GRUB русские символы корявые
Примерно такая картина:

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
Как получить publicKey используя xray x25519?
- 1 подписчик
- 15 часов назад
- 92 просмотра
0

ответов
Linux

+1 ещё

Простой
Как установить «Госплагин» в Яндекс-браузер на Debian 12?
- 1 подписчик
- вчера
- 265 просмотров
1

ответ
Linux

+4 ещё

Простой
Не видно курсор в KDE, что делать?
- 1 подписчик
- 07 нояб.
- 153 просмотра
2

ответа
Linux

Средний
Почему после подключения из консоли к openvpn перестаёт работать SOCKS прокси 3proxy на той же виртуальной машине VirtualBox?
- 1 подписчик
- 05 нояб.
- 96 просмотров
1

ответ
Linux

Простой
Что за ошибка « ERROR: Cannot open TUN/TAP dev /dev/net/tun: No such file or directory (errno=2)» при подключении к OpenVPN?
- 1 подписчик
- 05 нояб.
- 123 просмотра
1

ответ
Linux

Простой
Как в Deepin OS запустить исполняемый файл ЕИС как приложение Ubuntu?
- 1 подписчик
- 04 нояб.
- 158 просмотров
1

ответ
Linux

+1 ещё

Простой
Как в mc подключится к выносному дисководу?
- 2 подписчика
- 04 нояб.
- 209 просмотров
1

ответ
Linux

+1 ещё

Простой
Как избавится от остатков альтернативного экрана в TTY?
- 1 подписчик
- 31 окт.
- 229 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему nekoray в tun режиме не проксирует запросы от windsurf?
- 1 подписчик
- 28 окт.
- 411 просмотров
1

ответ
Linux

+1 ещё

Средний
Minikube/Kubernetes: как устранить ошибку при установке ingress аддона (webhook)?
- 3 подписчика
- 27 окт.
- 144 просмотра
0

ответов
Показать ещё Загружается…

Linux Systems Engineer (Asterisk/SIP)

IT ATLAS • Москва

от 200 000 ₽

DevOps

IT ATLAS • Москва

от 200 000 до 250 000 ₽

Системный администратор

ТЕЛЕРУС • Москва

от 150 000 до 250 000 ₽

Answer 1 · 2015-07-27 22:03:01

не выводите на экран результат и скорость вас приятно удивит ;)
awk и uniq примерно одинаковы по скорости

Я через sed и awk работаю с дампами базы данных, текстовый файл на 250 гиг... Время обработки - выделения конкретной таблицы и вырезания ее из текста - в общей сложности минут 5 после постановки задачи...

Answer 2 · 2015-07-31 16:00:37

Chvalov @Chvalov Автор вопроса

Самый быстрый способ сортировки и удаления дублей
sort file.txt -u > result.txt107Гб за час :)

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2015-07-28 13:01:12

Согласен с предыдущим пользователем, не делайте вывод файла в консоль. Если будете смотреть в сторону uniq, ее применять вместе с sort, к примеру:

sort bigfile.csv | uniq > bigfile1.csv

Объясните что лучше AWK или UNIQ в Linux (Удаления дублей с большего файла)?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт