Что почитать про диски (HDD, SSD) и файловые системы, желательно какое-то системное описание?

Question

Алексей @Kwent

computer vision DS

Что почитать про диски (HDD, SSD) и файловые системы, желательно какое-то системное описание?

Привет, кто-нибудь знает какую-то хорошую книгу или исчерпывающий обзор про современные ФС с прицелом на эффективность? Хочу сделать некий бинарный формат файла, требования к которому: большой размер и очень (максимально возможная) эффективность чтения и записи, ОС Linux-like .

Гуглится очень плохо, какими-то отрывками, баззворды с которыми хочется разобраться: страницы памяти, маппинг файлов на диск (mmap), какую ФС использовать и чем отличаются, как влияет количество inodes (и размер дескриптора) на производительность и влияет ли, как эффективно читать и писать, какой рейд использовать и надо ли вообще и подобное. На эти вопросы я почти нашел ответы, но их явно недостаточно чтобы осознанно принять решение как делать, и, скорее всего есть вещи о которых я вообще пока не в курсе.

Есть нечто похожее вроде RecordIO, webdataset и подобное, и я сейчас их и использую, но хочется немного больше понимания процесса

Может быть немного туманно спрашиваю, но очень тяжело сформулировать вопрос, хочу какую-то книгу "как работают файловые системы и диски" или вроде того, можно на английском

Вопрос задан более двух лет назад
1086 просмотров

10 комментариев

Подписаться 3 Сложный 10 комментариев

Viktor T2 @Viktor_T2

UNIX Filesystems - Evolution, Design, and Implemen...
The Design of the UNIX Operating System 1986 Mauri...

Написано более двух лет назад
Ипатьев @ipatiev

Хочу сделать некий бинарный формат файла, требования к которому: большой размер и очень (максимально возможная) эффективность чтения и записи, ОС Linux-like .

Мне кажется, это уже сделали до вас.
Посмотрите на файлы .sqlite

Эффективность доступа определяется не файловой системой, а наличием индексов, помещающихся в оперативной памяти, и позволяющих мгновенно позиционироваться на конкретный блок данных вместо того чтобы считывать весь файл.

Написано более двух лет назад
Алексей @Kwent Автор вопроса

Ипатьев, речь про большое количество изображений (терабайты), sql я так понимаю докидывает очень много накладных расходов и вообще не очень умеет в нормальное хранение бинарных файлов, в моей памяти для этого используется "картинку храним файлом на диске, а в бд ссылку", наличие миллионов файлов на диске драматически роняет производительность именно диска, или есть более эффективные способы?

Написано более двух лет назад
Ипатьев @ipatiev

Не очень понятно, откуда берется это "драматически роняет производительность" .
Если вы про падение производительности при большом количестве файлов в каталоге, то никто не заставляет напихивать помногу

Написано более двух лет назад
Алексей @Kwent Автор вопроса

не, я делал 1000 папок по 1000 файлов в каждой, все равно по сравнению с приведенными recordio/webdataset разница в скорости чтения десятки раз, почему именно -- не до конца понимаю, но именно эта проблема и стала причиной перехода в "бинарники"

Написано более двух лет назад
Viktor T2 @Viktor_T2

Посмотрите в сторону Key-value баз данных, RocksDB, LMDB и тп
https://habr.com/ru/companies/raidix/articles/345076/
https://stackoverflow.com/questions/25821380/high-...
upd: Статейка от сурьозных ребят https://synergy.cs.vt.edu/pubs/papers/pumma-lmdbio...

Написано более двух лет назад
mayton2019 @mayton2019

не, я делал 1000 папок по 1000 файлов в каждой, все равно по сравнению с приведенными recordio/webdataset разница в скорости чтения десятки раз, почему именно -- не до конца понимаю

Файловые системы по разному хранят индекс файлов в каталоге. Это может быть список. B+Tree, HashTable.
Кажется файловая система ext3/ext4 позволяет выбирать предпочтительный способ индексации.

Ты провел эксперимент 1000/1000 на конкретной файловой системе с конкретным размером блока
и с конкретным алгоритмом индексации. Твой эксперимент - незавершен. На твоем месте я-бы
выбрал 3-4 разных файловых системы. 3-4 разных размера блока и разных алгоритма.
И провел бы бенчмарки. После этого у тебя должна быть таблица где-то в 60 строк где каждая
строка это РЕЗУЛЬТАТ эксперимента.

В таком случае результат можно обсуждать.

Программирование чем отличается от математики например? А тем что в нем практически нету аксиом.
Все - проверяется опытным путем. Как в физике. Объект изучения - очень сложный. С сложными эффектами
управления. И никакой архитектор наперед не угадает какой будет отклик от файловой системы
например NTFS с размером блока в 64К с другими параметрами. Надо мерять. И по результатам делать
выводы. Как в садоводстве и в генетике. Берем лучший арбуз. Из него на следующий год растим арбузы
и еще выбираем лучший.

Вот так.

Написано более двух лет назад
Алексей @Kwent Автор вопроса

mayton2019, при всем уважении, я знаю как проводить эксперименты и чем отличается программирование от математики, было бы здорово немного меньше надменности в ответах, но все равно спасибо за идеи

Написано более двух лет назад
Алексей @Kwent Автор вопроса

Viktor T2, большое спасибо за ссылки, особенно за статью, очень в тему

Написано более двух лет назад
mayton2019 @mayton2019

Kwent, я иногда бываю многословен. Мысль просто так идет. Но в моих словах нет надменности.

rPman уже дал хороший ответ и я проголосовал.

Написано более двух лет назад

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

9 комментариев

Алексей @Kwent Автор вопроса

Большое спасибо за развернутый ответ, несколько уточнений:
> как именно данные будут храниться на диске (обычно речь идет о хранении данных минуя файловую систему)

Речь о "своем формате"? То есть для ОС это просто один файл? Или как-то по-другому можно миновать ФС?

> ОС позволяют управлять стратегией кеширования, в т.ч. полное ее отключение

Если я точно знаю, что мне не надо кэшировать, отключение затрагивает производительность?

Не могу не спросить, в какую сторону/какую ФС выбрать, если на диске один большой бинарный файл и нужен быстрый random access в его части (контекст - много мелких картинок "зашитых" в один файл, обучение нейросетей). По моим тестам random access сильно проигрывает последовательному чтению и рандому в буфере, это понятно, но может, можно уменьшить как-то коэффициент деградации?

Написано более двух лет назад
rPman @rPman

Да, можно открывать раздел или диск как файл (или работать с ним специальными функциями но точно так же как и с обычным файлом), настраивая в т.ч. и работу кеша

В linux это кстати буквально файл (открываешь хоть fopen файл с именем /dev/sda1 но нужно либо настраивать права доступа или делать это под root)

Про random access я уже сказал, все проблемы создает физическая реализация носителей, только RAM может без особых накладных расходов позволять читать случайно.

Дорогие ssd позволяют так же выдавать высокий iops именно с random access. Остальные же (и тем более hdd) дадут считанные десятки/сотни запросов в секунду (но благодаря тому что за один запрос устройство может выдать сразу большой блок данных, можно заранее сохранить несколько записей рядышком и запрашивать их сразу скопом, кратно увеличивая итоговое количество 'записей в секунду')

Еще раз резюмирую, хочешь большие скорости - пили свой формат хранения

p.s. работа с нейронками не требует особо высокой СЛУЧАЙНОЙ скорости, ведь данные там запрашиваются последовательно, а значит их можно разместить в одном файле. Еще момент, если размер изображения - сотни килобайт- мегабайт, можешь вообще не заморачиваться с форматами и размещать по одному файлу на картинку, современные файловые системы очень неплохо это оптимизируют!

Написано более двух лет назад
shurshur @shurshur

rPman, думаю, в ответе вместо nmap имелся в виду mmap :)

Написано более двух лет назад
Алексей @Kwent Автор вопроса

rPman
> работа с нейронками не требует особо высокой СЛУЧАЙНОЙ скорости, ведь данные там запрашиваются последовательно

Это не совсем так, там есть такая вещь, как перемешивание данных, у вас есть картинки 1 2 3 4, первую итерацию мы идем последовательно, а потом каждую следующую перемешиваем индексы (например, 2 4 3 1). Для эффективности используют псевдорандом, например, читаем последовательно 10000 картинок в RAM и перемешиваем честно этот буфер, но это компромисс производительности-качества

> Еще момент, если размер изображения - сотни килобайт- мегабайт, можешь вообще не заморачиваться с форматами и размещать по одному файлу на картинку, современные файловые системы очень неплохо это оптимизируют!

У меня когда доходит до 10-100 млн файлов все прям умирает (5-10х потери скорости чтения запросов по имени типа "/mnt/disk/files/1/2/3/img.jpg"), при условии максимум 1000 файлов/каталогов в одном каталоге, отсюда и появилось желание ускорить/посмотреть как правильно

Написано более двух лет назад
rPman @rPman

shurshur, спасибо, мой косяк, nmap это утилита анализа сетей и открытых сервисов на машинах в ней

Написано более двух лет назад
rPman @rPman

Алексей, чудес не бывает, никакая файловая система не ускорит проблемный накопитель, а вот добавить накладных расходов это пожалуйста (например zfs сильно роняет запись)

Под твою конкретную задачу выбор у тебя только купить ssd (nvme) и файловую систему по проще, тот же ext4 и опцию noatime (кстати если сделаешь размер кластера равным или больше файла изображения, это может заметно уменьшить накладные расходы файловой системы (правда за счёт накладных расходов на место, так как какого бы размера файл не был, он бы занимал минимум кластер)

Написано более двух лет назад
mayton2019 @mayton2019

Мне кто-то из знатоков линукс ядра рассказывал что там начиная с какой-то версии почти весь файловый API идет через mmap. Тоесть специально можно уже не озадачиваться.

Написано более двух лет назад
rPman @rPman

Алексей,
У меня когда доходит до 10-100 млн файлов все прям умирает (5-10х потери скорости чтения запросов по имени типа "/mnt/disk/files/1/2/3/img.jpg"), при условии максимум 1000 файлов/каталогов в одном каталоге, отсюда и появилось желание ускорить/посмотреть как правильно
миллион файлов это что то с чем то.

Многоуровневое хранение - верное решение но...

если тебе не лень, можешь организовать собственное хранилище, самое простое из индексного файла (загружается в память, формат любой, рекомендую базу данных, обслуживать будет проще) в котором хранишь:
* имя файла (или его уникальный идентификатор)
* имя/номер файла контейнера (если их будет больше одного, например на нескольких дисках размещать)
* смещение в файле контейнере (можно поделить на размер кластера файловой системы, сделай это константой, задав значение заведомо максимальным из используемых фс, обычно это 4кб или 8кб)
* размер файла-изображения
и 1.. любое количество контейнеров, в котором файлы просто записаны друг за другом (обязательно выравнивай на размер кластера файловой системы, заполняя оставшееся место нулями)

код работы с такой 'базой' пара строчек (тебе же только на чтение), для записи контейнеры перезаписывай.

p.s. когда то давно я делал такой, вместо базы со смещениями у меня был 64-битный идентификатор, в котором были зашиты смещение и размер файла, а сам контейнер размещался напрямую в диске без разделов файловых систем.

Написано более двух лет назад
Алексей @Kwent Автор вопроса

rPman, да, сейчас примерно такое и делаю, отсюда и появился вопрос :)

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 259 просмотров
6

ответов
Твердотельные накопители

Простой
Можно ли воткнуть M2 диск в Rock Pi4 без переходника?
- 1 подписчик
- 16 июл.
- 111 просмотров
2

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 156 просмотров
2

ответа
Твердотельные накопители

Средний
Насколько необходимо включать функцию Overprovisioning у SSD?
- 1 подписчик
- 03 июл.
- 182 просмотра
3

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 292 просмотра
3

ответа
Жёсткие диски

+1 ещё

Средний
Почему Торрент опять грузит диск на 100%?
- 1 подписчик
- 26 июн.
- 277 просмотров
2

ответа
Жёсткие диски

+1 ещё

Средний
Жесткий диск не справляется с Торрентом?
- 1 подписчик
- 11 июн.
- 382 просмотра
3

ответа
Твердотельные накопители

+1 ещё

Средний
Как убедить сервисный центр поменять SSD?
- 1 подписчик
- 27 мая
- 298 просмотров
3

ответа
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 342 просмотра
5

ответов
Windows

+2 ещё

Сложный
Не видит Microsoft Boot Manager(не обычная ситуация), как исправить?
- 1 подписчик
- 10 мая
- 366 просмотров
2

ответа
Показать ещё Загружается…

UNIX Filesystems - Evolution, Design, and Implemen...
The Design of the UNIX Operating System 1986 Mauri...
Хочу сделать некий бинарный формат файла, требования к которому: большой размер и очень (максимально возможная) эффективность чтения и записи, ОС Linux-like .

Мне кажется, это уже сделали до вас.
Посмотрите на файлы .sqlite

Эффективность доступа определяется не файловой системой, а наличием индексов, помещающихся в оперативной памяти, и позволяющих мгновенно позиционироваться на конкретный блок данных вместо того чтобы считывать весь файл.
Ипатьев, речь про большое количество изображений (терабайты), sql я так понимаю докидывает очень много накладных расходов и вообще не очень умеет в нормальное хранение бинарных файлов, в моей памяти для этого используется "картинку храним файлом на диске, а в бд ссылку", наличие миллионов файлов на диске драматически роняет производительность именно диска, или есть более эффективные способы?
Не очень понятно, откуда берется это "драматически роняет производительность" .
Если вы про падение производительности при большом количестве файлов в каталоге, то никто не заставляет напихивать помногу
не, я делал 1000 папок по 1000 файлов в каждой, все равно по сравнению с приведенными recordio/webdataset разница в скорости чтения десятки раз, почему именно -- не до конца понимаю, но именно эта проблема и стала причиной перехода в "бинарники"
Посмотрите в сторону Key-value баз данных, RocksDB, LMDB и тп
https://habr.com/ru/companies/raidix/articles/345076/
https://stackoverflow.com/questions/25821380/high-...
upd: Статейка от сурьозных ребят https://synergy.cs.vt.edu/pubs/papers/pumma-lmdbio...
mayton2019, при всем уважении, я знаю как проводить эксперименты и чем отличается программирование от математики, было бы здорово немного меньше надменности в ответах, но все равно спасибо за идеи
Viktor T2, большое спасибо за ссылки, особенно за статью, очень в тему
Kwent, я иногда бываю многословен. Мысль просто так идет. Но в моих словах нет надменности.

rPman уже дал хороший ответ и я проголосовал.

Answer 1 · 2023-08-22 12:40:29

Собственно все необходимые вопросы, на которые нужно обратить внимание, вы указали в вопросе, гуглить по каждому но в большинстве своем все ответы можно сформулировать самостоятельно, просто подумав и включив логику.

1. Случайный и многопоточный доступ - принципиальная необходимость задумываться об этом исходит из физической особенности накопителей, последовательный доступ от случайного (имеется в виду как у hdd так и у ssd (в меньшей степени, зависит от размера читаемого блока кластера, потребительскиее ssd это 256кб) значительно отличаются (на порядок или даже два) по времени. Аппаратные контроллеры на материнской плате и даже на диске (или драйвера и планировщик ос) могут физически считывать данных больше чем потребуется (read ahead), делая это фоном, после запроса и сохраняя в своей памяти.
Если несколько приложений одновременно потребуют данные с разных областей устройства хранения, специальный планировщик ос может приостанавливать работу этих приложений, собирая как можно больше запросов на данные, сортируя их для оптимальной их обработки. Пользовательское приложение может делать это значительно эффективнее, если заранее озаботится о том, как именно данные будут храниться на диске (обычно речь идет о хранении данных минуя файловую систему).

2. Кеширование чтения - в подавляющем большинстве случаев хватает функционала операционной системы, операционные системы используют разные стратегии (fifo или к примеру на основе частоты запросов), системные вызовы ОС позволяют управлять стратегией кеширования, в т.ч. полное ее отключение (это может быть недоступно для некоторых файловых систем, например fuse в linux, если об этом не позаботился их разработчик), с целью перенести логику выбора кеширования данных в приложение.

3. Кеширование (буферизирование) записи - приложение может управлять, стоит ли ждать окончания физической записи данных на диск или это можно сделать фоном или даже отложить на потом. Например fflush позволяет принудительно сбросить буфера при использовании fwrite (и других от stdlib), более низкоуровневые вызовы позволяют точнее управлять процессом. Помимо инструментов управления кешированием на уровне приложения есть способы настроить это на уровне ОС (например ext4 позволяет настроить стратегию записи data=writeback, это делает файловую систему уязвимой к сбоям но значительно ускоряет запись, так как даже fflush из приложения не будет ждать окончательной записи), так же разные сетевые файловые системы могут накладывать дополнительные ограничения (точно помню что nfs обрабатывает fwrite по другому в отличии от локальных записей, делая больше лишних действий на диске)

p.s. про mmap, меанизмы ОС (как linux так и windows) позволяет вместо работы с файлом по кусочкам (fopen/fread/fwrite/...) 'замапить' указанный файл или даже раздел/диск на область памяти, при доступе к которой прозрачно будут совершаться чтения и записи на диск. Этот способ работы с файлами зачастую самый производительный (кстати по умолчанию используются на исполняемый файл приложения и .dll/.so) и очень часто еще и удобнее, так как кеширование данных будет произведено средствами ос, и при повторном запуске приложения данные уже будут в памяти (при обычном fopen их пришлось бы считывать в память, т.е. копировать что дает 2x накладные расходы на процессор).

-------------

4. Файловые системы это уровень абстракций ОС, значительно добавляет накладные расходы на работу с данными но за счет удобства (например возможность расширить хранилище без полного копирования данных, просто увеличив размер раздела или добавив новый накопитель, как это позволяют файловые системы - комбаины типа btrfs/zfs), разные файловые системы организуют хранение по разному, что значительно влияет на скорость как записи так и чтения.
Например cow файловые системы (xfs/zfs/btrfs) каждое последующую запись делают последовательно, даже если записываемые чанки/кластеры принадлежат разным файлам, даже если это модификация а не добавление в конец, что благосклонно сказывается на скорость записи но отвратительно фрагментирует размещение файлов на диске (там есть механизмы борьбы с этим), т.е. для хранилище файлов разного размера, считываемых/изменяемых целиком такие файловые системы идеальны, но для баз данных наоборот очень неэффективны (в таких фс можно принудительно отключить cow для определенных файлов). btrfs/zfs за эти накладные расходы (незначительные) дают бонусом функционал быстрых снапшотов (почитай про btrfs snapshot incremental backup) и высокую устойчивость к сбоям.
Еще пример, файловые системы, с целью защитить данные от сбоев, добавили к функционалу понятие журнал, промежуточное место, куда записываются данные (метаданные) до тех пор пока приложение не зафиксирует изменения (закрытие файла или fflush), в нормальных ОС существует возможность разместить этот журнал на отдельном, более быстром, накопителе (например ext3/ext4) или отключить полностью. Это позволяет заметно ускорить запись и не покупать на весь объем данных быстрый и дорогой накопитель.
Было время, когда можно было буквально (кажется у xfs но я могу ошибаться) указать разные накопители для метаданных (информация о том как файл размещен на диске и информация о атрибутах файлов) и самих данных, что тоже в условиях значительного отличия скорости работы емких hdd и быстрых но не емких ssd, сэкономить на построении хранилища.

5. Сжатие данных на лету - некоторые файловые системы позволяют прозрачно для приложений пропускать данные через библиотеку сжатия (в пределах кластера или даже нескольких соседних), например ntfs использует compress, а btrfs позволяет выбирать, например zstd (один из лучших по соотношений скорость/сжатие), было время когда включение сжатия на медленных накопителях давала двух-трех кратное ускорение скорости чтения практически бесплатно (а запись почти не замедлялась но повышалась нагрузка на процессор), на современных же накопителях процессор может не поспевать (но есть дорогие контроллеры с таким функционалом).
Еще есть тип сжатия - sparse files (дырявые файлы), части файла, в которые не производилась запись, физически не занимают место (фактически тратится место только крохотная часть в области метаданных файловой системы), при чтении таких частей будут возвращены нули, так же есть функции по замене ранее записанных частей файла на такие дырки. Такие файлы могут понадобиться, например, когда нужно хранить огромные разряженные матрицы с индексацией по позиции, индекс тут будет использоваться от файловой системы но выигрыш по производительности сомнителен и требует измерений под ваши данные.

p.s. любая сторонняя библиотека, добавляющая еще один уровень абстракции к хранилищу, может дать выигрыш только если стратегия работы с данными совпадает с той, на что заточена эта библиотека. Например реляционные базы данных дают готовый и обширный функционал по индексированию данных, многопользовательских транзакций но за счет больших накладных расходов на их поддержание. Помню был тут вопрос про хранение терабайтов данных числовой ключ -> крохотное значение (несколько байтов хеш), так вот майкрософтовская sql уже с миллионами записей могла до секунды на запись диском шерстить (тысячи iops), когда как самодельный и примитивный велосипед с одноуровневым индексом по хешу от значения мог дать скорость доступа и записи 1к1 iops накопителя (от 1 вызов к диску на запрос чтения и от 2 - на запись).

Answer 2 · 2023-08-22 11:30:31

Так просто прочитайте устройство стандартной POSIX файловой системы, та же ext2 - ext3
Когда основные термины и представление будет в голове, новые фичи легко кладутся на базовое понимание.
Ваши RecordIO и webdataset по сути ничем сильно не отличаются от любого другого контейнера, где данные хранятся в упакованном виде. И собственно понимание как хранится один единственный файл в любой файловой системе дает также интуитивное в чем преимущество контейнеров.
Еще хороший вариант, прочитать как устроена FAT16, и сравнить с тем как устроена EXT3

Answer 3 · 2023-08-22 12:07:21

Мне кажется, что википедии достаточно, чтобы иметь как минимум базовые, и не только, знания, как все устроено
- https://ru.wikipedia.org/wiki/%D0%96%D1%83%D1%80%D...
- https://ru.wikipedia.org/wiki/Ext4
- https://metebalci.com/blog/a-minimum-complete-tuto...
- 1001file.ru/article/teoriya-kompyuternoy-gramotnos...
- https://xakep.ru/2016/10/28/file-system-secrets/

Увы, отдельной книги не встречал...

Ну и в гугле по-русски "анатомия файловых систем" и по аглицки "filesystems anatomy"

Answer 4 · 2023-08-22 15:36:14

Не очень понятно зачем тут файловая система, делайте сразу в раздел диска так будет нулевой оверхед
Используйте нвме
Сколько чтения и записибудет зависеть от патерна пишите максимально большими последовательными блоками и читайте тоже, будете выживать на запись и члени чтение спокойно 5 гигов в секунду

Что почитать про диски (HDD, SSD) и файловые системы, желательно какое-то системное описание?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт