Как в Linux найти файлы одинакового размера?

Question

Asparagales @Asparagales

Linux
bash

Как в Linux найти файлы одинакового размера?

Есть директория. В ней находятся файлы и еще другие директории с файлами. Некоторые из этих файлов на самом деле являются копиями друг друга, помещеными в директорию в разное время из разных источников. Но при этом эти копии имеют хоть и схожее, но не одинаковое название. Но они должны иметь одинаковый размер. Нужно получить список всех файлов с одинаковым размером. Чтобы потом уже вручную удалить дубликаты. Как это сделать? Гугление обычно выдает команду find, но я так и не смог с ней разобраться. Кажется она умеет только искать файлы меньше и больше определенного размера.

(Еще лучше, если можно будет находить файлы с размером совпадающин не только байт в байт, но и задавать диапазон. Например, найти все файлы, которые не отличаются друг от друга более чем на 10 Кб. Но это уже пожелание опционально)

Вопрос задан более года назад
401 просмотр

2 комментария

Подписаться 2 Простой 2 комментария

res2001 @res2001

Теоретически:
1. Делаете список всех необходимых файлов с полными путями, содержащий путь к файлу и размер
2. Сортируете список по размеру
3. Проходитесь по списку ищите файлы одинакового размера - они все будут рядом друг с другом. По каждому отдельному размеру файлов:
3.1. По файлам с одинаковым размером считаете какую-нибудь контрольную сумму на выбор (MD5, CRC32, SHAXXX без разницы в общем), путь к файлу и контрольную сумму складываете в отдельный временный файл
3.2. Полученный файл с контрольными суммами сортируете по контрольной сумме
3.3. Проходитесь по файлу с контрольными суммами и удаляете файлы, где контрольная сумма повторяется с предыдущей
4. Конец

В принципе все это можно сделать не сильно сложным bash скриптом.

Написано более года назад
shurshur @shurshur

du -b /path/to/directory|sort -n

du -b покажет размеры в байтах, sort -n отсортирует как числа, но я бы лучше сразу md5sum по файлам прогнал, потому что одинаковый размер не есть одинаковое содержимое

Написано более года назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 3

7 комментариев

Asparagales @Asparagales Автор вопроса

Я так и не понял из этой статьи как мне получить список файлов с одинаковыми размерами. Я не знаю нужный размер, он может быть любым. Я просто так дупликаты хочу найти, поскольку названия у них разные, а размеры должны быть одинаковые.

Написано более года назад
Владимир Римидалв @pickHabr

Asparagales, обновил ответ

Написано более года назад

kisaa @kisaa

Now filenames with spaces are also supported

ls -l|grep '^-'|awk '{ f=""; if(NF>9)for(i=9;i<=NF;i++)f=f?f" "$i:$i; else f=$9; 
        if(a[$5]){ a[$5]=a[$5]"\n"f; b[$5]++;} else a[$5]=f}END{for(x in b)print a[x];}'

Чертова ~~патч Бармина~~ линуксовая магия!

Написано более года назад

Кот Абсолютный @CityCat4

kisaa, И что? Как из этой каши понять, какие файлы с какими парные? На выходе просто тупое перечисление файлов с одинаковым размером вообще. Очевидно же, что челу нужно знать не только какие у него вообще файлы одинаковы, но и что одинаково с чем.

Это можно сделать например вот так:
ls -l | sort -k5

Написано более года назад
Владимир Римидалв @pickHabr

CityCat4,
Очевидно же, что челу нужно знать не только какие у него вообще файлы одинаковы, но и что одинаково с чем.
тут согласен, добавил вывод размера

Это можно сделать например вот так:
ls -l | sort -k5
не понял каким образом это решает проблему
что одинаково с чем

Написано более года назад
theurs @theurs

fdupes -r /path

Написано более года назад
hint000 @hint000
Владимир Римидалв,
не понял каким образом это решает проблему
что одинаково с чем

Там уже глазами смотреть. Одного размера будут стоять рядом; если не тысячи файлов, то вполне можно глазами справиться.
Но можно чуть доработать и будет сразу выводить список дубликатов к удалению:

ls -l | sort -k5 -g >/tmp/01.txt ls -l | sort -k5 -g -u >/tmp/02.txt diff /tmp/01.txt /tmp/02.txt

upd. даже так:
diff <(ls -l | sort -k5 -g) <(ls -l | sort -k5 -g -u)
Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 3 подписчика
- 21 июл.
- 249 просмотров
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- 21 июл.
- 108 просмотров
4

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 308 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1120 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 340 просмотров
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 395 просмотров
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 303 просмотра
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 161 просмотр
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1193 просмотра
2

ответа
Linux

+1 ещё

Средний
Редактирование загрузочного меню GRUB?
- 1 подписчик
- 23 мая
- 442 просмотра
3

ответа
Показать ещё Загружается…

Теоретически:
1. Делаете список всех необходимых файлов с полными путями, содержащий путь к файлу и размер
2. Сортируете список по размеру
3. Проходитесь по списку ищите файлы одинакового размера - они все будут рядом друг с другом. По каждому отдельному размеру файлов:
3.1. По файлам с одинаковым размером считаете какую-нибудь контрольную сумму на выбор (MD5, CRC32, SHAXXX без разницы в общем), путь к файлу и контрольную сумму складываете в отдельный временный файл
3.2. Полученный файл с контрольными суммами сортируете по контрольной сумме
3.3. Проходитесь по файлу с контрольными суммами и удаляете файлы, где контрольная сумма повторяется с предыдущей
4. Конец

В принципе все это можно сделать не сильно сложным bash скриптом.
du -b /path/to/directory|sort -n

du -b покажет размеры в байтах, sort -n отсортирует как числа, но я бы лучше сразу md5sum по файлам прогнал, потому что одинаковый размер не есть одинаковое содержимое

Answer 1 · 2024-08-16 07:47:24

Нужно получить список всех файлов с одинаковым размером. Чтобы потом уже вручную удалить дупликаты.

Вы можете в несколько кликов искать и удалять дубликаты файлов, используя GUI-утилиту под названием FSlint. Находит не просто совпадение размера, а именно совпадение и размера, и содержимого. Имена файлов при этом могут быть разные. Просто добавляете несколько папок, по которым нужно искать дубликаты, потом среди найденных выделяете те, которые хотите удалить и удаляете. Т.е. вручную можно выбирать в какой из папок файл оставить, а в какой удалить. Можно все дубликаты оставить, можно все удалить (!).
Утилита имеет и другие функции для поиска разных корявостей и неоптимальностей в папках (имена с "плохими" символами, пустые папки и т.д.)

Есть ещё утилита командной строки fdupes, которая тоже ищет дубликаты.

Answer 2 · 2024-08-16 05:15:55

https://linuxconfig.org/how-to-use-find-command-to...

upd

https://stackoverflow.com/questions/7541616/how-to...

ls -l|grep '^-'|awk '{if(a[$5]){ a[$5]=a[$5]"\n"$NF; b[$5]++;} else a[$5]=$NF} END{for(x in b)print a[x];}'

upd 2
этот код выведет файлы с одинаковым размером, смотри рекурсивно от текущей папки и отображает вес файла

ls -lR | grep '^-' | awk '{
    f = ""; 
    if (NF > 9) 
        for (i = 9; i <= NF; i++) 
            f = f ? f" "$i : $i; 
    else 
        f = $9;
    
    if (a[$5]) { 
        a[$5] = a[$5]"\n"$5" "f; 
        b[$5]++; 
    } else { 
        a[$5] = $5" "f 
    }
} 
END { 
    for (x in b) 
        print a[x]; 
}'

upd 3
а тебе вот прям нужен баш? можно на питоне скрипт сделать

Answer 3 · 2024-08-16 08:14:08

Еще лучше, если можно будет находить файлы с размером совпадающин не только байт в байт, но и задавать диапазон. Например, найти все файлы, которые не отличаются друг от друга более чем на 10 Кб. Но это уже пожелание опционально

утилита ssdeep умеет искать схожие файлы, производя нечеткое сравнение и генерирует хэш-сумму файла.
Уточнение: диапазон нельзя указать. Она сама определяет критерии для сравнения.

Answer 4 · 2024-08-16 14:53:01

1. Поискать готовые инструменты, их есть.

2. написать скрипт, который например через find находит все файлы рекурсивно, вычисляет для каждого контрольную сумму, например md5, и скидывает в какой-то текстовый файлик хеш и путь+имя файла.
Сортируешь по хешу, находишь одинаковые.

3. найти все файлы, которые не отличаются друг от друга более чем на 10 Кб
С этим сложнее. Есть софт, который может определять похожие изображения, но именно файлы, там непонятно как с критериями работать.

Как в Linux найти файлы одинакового размера?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт