Большое количество файлов и папок. Дробить или нет?

Question

Goodver @Goodver

Большое количество файлов и папок. Дробить или нет?

К примеру есть миллион папок в каждой из которых миллион файлов.

1. Просто записываем этот миллион папок в какую то одну главную папку.
2. Разделяем главкую папку еще на 100 папок, а миллион наших папок разделяем между этими 100 папками

По какому принципу работает файловая система linux, то есть как она находит файл (перебором каждой папки пока не удовлетворит запросу, всмысле если я указваю путь /main/56/1.jpg проверяет ли он названия предыдущих 55 папок на соответсвие цифре 56, то есть начиная с первой папки это 56?-нет, это 56?-нет) и есть ли принципиальная разница в быстродействии при обращении к конкретному файлу.

То есть /main/1/2/1.jpg или /main/1/1.jpg

Вопрос задан более трёх лет назад
4240 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

4 комментария

Goodver @Goodver Автор вопроса

Ок, тогда встречный вопрос. По Вашей ссылке речь идет о большом количестве файлов. А что если к примеру у меня 1м папок, в каждой из который по 1 файлу. Влияет ли листинг большого количества папок на быстродействие, так как папка это по сути просто запись, то есть она ничего не весит и ничего не занимает.

Написано более трёх лет назад
phasma @phasma

директория весит и занимает. Есть еще такая вещь как inode. Листинг большого количества файлов невозможен, т.к. в стандартных гнушных утилитах есть ограничения. Лучше это делать через find. В общем если это изображения, как упомянутов выше, то просто указывай директорию вида /YY/MM/DD/, если есть хэши, то пару директорий первыми символами от хэша.

Написано более трёх лет назад
rPman @rPman

ext2/3 (и кажется и 4) каталоги — это просто файл с особым типом и тупым форматом (последовательность блоков под каждый файл), для поиска файла читается фактически весь список (конечно это быстрее чем вывести весь список, но трудоемкость такая же)

Если порыться, возможно можно будет найти файловые системы с древовидным хранением информации о файлах в каталоге.

p.s. поиграйтесь со squashfs, если запись критична — +unionfs или +aufs, в общих тестах (речь не идет о именно большом количестве файлов, формат контейнера squashfs так же планарный для директорий) дает в среднем 12%-30% прирост (тупо меньше елозить по диску)

p.p.s. habrahabr.ru/qa/10694/#answer_46206 а для имен файлов использовать какую-либо nosql

Написано более трёх лет назад
sledopit @sledopit
@phasma: Листинг невозможен, если его делать вот так:

ls *
Если просто запустить ls то всё будет ок, но выводиться будет достаточно долго.
Это всё из-за того, что * начинает раскрываться, а шелл имеет ограничение на количество передаваемых аргументов. по этой же причине отвалится rm * и прочие товарищи.
зы. Однако, что весьма любопытно, конструкция

for i in * ; do echo "$i" ; done
будет прекрасно работать (echo можно заменить на rm или что душе угодно).
Происходит это потому, что for, в отличие от ls, rm, etc явлется builtin командой и ограничение на количество аргументов на него не распространяется, т.к. * в данном случае аргументами являться не будет. Правда оперативки съестся прилично. (:
Написано более трёх лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 3 подписчика
- 21 июл.
- 233 просмотра
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- 21 июл.
- 100 просмотров
4

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 305 просмотров
2

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1112 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 339 просмотров
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 393 просмотра
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 303 просмотра
1

ответ
Linux

+1 ещё

Средний
Почему при малом проценте зарядки в Debian (Cinnamon) начинает лагать, перед выходом в гибернацию?
- 1 подписчик
- 17 июн.
- 161 просмотр
2

ответа
Linux

+1 ещё

Средний
Рост CLOSE-WAIT и утечки TCP-сокетов в Xray (vless + reality) — что делать?
- 3 подписчика
- 05 июн.
- 1193 просмотра
2

ответа
Алгоритмы

Простой
Стоит ли читать книгу «Грокаем алгоритмы»?
- 1 подписчик
- 27 мая
- 324 просмотра
0

ответов
Показать ещё Загружается…

Answer 1 · 2012-05-05 16:25:16

sledopit @sledopit

Дробите. Подробности.

Ответ написан более трёх лет назад

4 комментария

Answer 2 · 2012-05-05 20:43:26

> есть миллион папок в каждой из которых миллион файлов.

Кажется вы созрели для СУБД.

Answer 3 · 2012-05-05 20:16:41

Дробить надо, причин тому много, фактически все сводится к тому, что чем больше обьектов в папке — тем больше ресурсов надо на их поиск (и другие операции). В некоторых случаях — пропорционально размеру…
Найти файл (или пустое место для создания нового) среди миллиона таких же в папке сложнее, чем сначала найти его подпапку среди тысячи подпапок, и потом найти нужный файл среди тысячи в выбранной подпапке. Даже с техниками индексирования содержимого папок…

Итого, желательно чтобы максимальное кол-во обьектов в папке было порядка 1к-5к. Добавлять односимвольные подпапки, к примеру, не эффективно — их получится много и кол-во операций поиска елемента в папке сильно увеличится (хотя операции эти будут сравнительно простыми). Идеально — 3 (максимум 4) цифры на подпапку, либо 2 символа включая буквы (для равномерной плотности распределения символов в имени).

Answer 4 · 2012-05-06 02:30:40

Решаю такую задачу путем генерации катлога по uinqueid в php (подойдет любой другой аналог) и дальнешим дроблением полученного значения на подкаталоги. Степень дробления определяется частотой добавления новых файлов. В итоге полученное решение приемлемо для любой актуальной файловой системы.

Answer 5 · 2015-04-30 15:45:38

kamaikin @kamaikin

Плохо в инете искали..... статьи старые....
habrahabr.ru/post/70147
vkamaikin.ru/page/obrabotka-fajlov-na-servere

Ответ написан более трёх лет назад

Комментировать

Большое количество файлов и папок. Дробить или нет?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт