Возможно ли получить уникальный идентификатор файла?

Question

Сергей Мелодин @melodyn

Лучше нативная смерть, чем фреймворковая жизнь.

Возможно ли получить уникальный идентификатор файла?

Хочу создать навигацию по файлам (просто перекрёстные ссылки в документе), чтобы при этом можно было изменять содержимое файла, переименовывать его, перемещать в другие директории, но чтобы ссылки оставались рабочими.

Как я себе это представлял: при создании файла появляется возможность установить некую "метедату" или получить выданный системой идентификатор (ИД), который остаётся к нему привязан в течение всего "срока жизни". При формировании ссылок, я указываю ИД, а по окончании редактирования, например, перед пушем в репозиторий, запускаю скрипт, который просматривает файлы по ИД и устанавливает на них корректные ссылки в тексте основного документа.

Потратил сегодня много времени на гуглёжку, но не смог найти подходящего решения этой задачи, потому что всё свелось к inode и UUID.

inode показал себя весьма ненадёжно - он изменялся после редактирования файла, да и если потом мой проект кто-то развернёт на другой виртуалке, то иноды пересчитаются под ту файловую систему. При удалении файла инод переназначается новому файлу. Ненадёжно, это не то.

UUID выглядит, как отличная альтернатива уникальной идентификации, однако, я так и не нашёл способа увидеть UUID конкретных файлов.

Подумал, что, возможно, смогу устанавливать некие пользовательские метаданные (а-ля data-attributes в HTML), но оказалось, что это очень ограниченная область и далеко не все инструменты могут работать с метаданными. Дополнительная сложность в том, что скрипт автоматизации хотелось написать на знакомом мне ЯП -- JS или PHP, но в документации последнего я так же не нашёл никаких способов помечать файлы некими уникальными идентификаторами.

Записывать ИД первой / последней строкой в файл можно конечно, но это такое себе. Можно с таким же успехом просто давать файлам уникальные имена, это не интересно. Из обходных путей - повесить демона, который будет отслеживать изменения в реальном времени, но он будет работать только в том случае, если человек развернул виртуалку, а для редактирования документов этого могут и не делать. Можно что-то прикрутить к гиту, чтобы на него повесить эту задачу, но опять же нужно знать что и как. Да и я не верю, что моя хотелка уникальная, всё это уже должно было быть решено сто раз.

Ещё пробовал жёсткие / символические ссылки, но при перемещении файла жёсткая ссылка начинает выдавать при чтении информацию из прошлой версии. Похоже на некое кэширование, не знаю, имеет ли смысл с этим бороться.

В общем, сформировался примерно такой образ:
Уникальный идентификатор, независящий от файловой системы, записанный на том уровне, откуда его возможно получить без танцев с бубнами, но и не на "видном месте", не изменяющийся при перемещении, переименовании файла и изменении его содержимого. Желательно, чтобы не требовал активного демона.

Где взять, как сформировать? Если есть уже готовые решения, то делитесь ссылочками, но интересует и самому слегка разобраться )

Вопрос задан более трёх лет назад
2310 просмотров

11 комментариев

Подписаться 3 Простой 11 комментариев

Adamos @Adamos

После прочтения вопроса интуитивное ощущение, что задача решается принципиально не с того конца. Зачем все это? Почему меняются места и имена файлов, на которые ставится ссылка? Как какая-то навигация будет сохраняться при совершенно от нее не зависящих действиях с диском? Что можно считать одним и тем же файлом, если файлы могут быть одинаковыми, а перемещение может быть копированием и удалением оригинала? Что вам, собственно, на самом деле нужно?

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

Adamos, да, задача возникла из-за того, что нет проекта - никто точно не знает какая будет структура каталогов, что вообще будет записываться в файлы и какие они получат имена. Но я точно знаю, что будет много текстовых файлов и читать их будет нужно не в алфавитном порядке, а в заданном некой логикой.

В настоящее время, когда файлов чуть больше десятка, нет потребности что-то мудрить, но я боюсь, что однажды, например, через год, придётся внести небольшое изменение в структуру и внезапно отвалятся сотни ссылок.

Возможно, этого никогда не случится или проблемы по перелинковке не возникнет, т.к. я обойдусь парой-тройкой регулярных выражений. Но сама идея идентификации файла в момент создания без привязки к его имени, каталогу или содержимому показалась мне максимально простой и очевидной. Поскольку самостоятельно я не определил насколько это адекватная мысль, я и сформулировал то, что есть на данный момент.

Для копирования файлов нет особой причины, т.к. всё версионируется, а вот может быть такое, что виртуалку с документацией помимо меня склонирует кто-то ещё для совместной работы.

Написано более трёх лет назад
Adamos @Adamos

Сергей Мелодин, мне представляется не менее простой и очевидной идея класть файл при создании в предопределенное место, а если потом захочется их как-то реорганизовать или сделать выборку - так для этого, черт возьми, вы и делаете какую-то там систему НАД ними. Просто забудьте о том, что к файлам можно будет получить доступ как-то иначе - и ваша проблема исчезнет автоматически.

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

Adamos, над файлами ничего нет пока что, это просто документация, написанная не одним большим файлом, а множеством мелких с перекрёстными ссылками. Вот как раз моя мысль об автоматизации перелинковки средствами уникальных ключей - это и есть планируемая система НАД ними.

Если я правильно понимаю, то она вам не нравится (да и у меня пока есть сомнения об её успехе), но какой путь вы предлагаете, я пока не улавливаю ) Повесить на главной странице дисклеймер "редактируй файлы только в PhpStorm"?

Написано более трёх лет назад
Adamos @Adamos

Сергей Мелодин, если это документация (то есть текст и картинки), на кой ляд вообще хранить ее в файлах?
CMS научились хранить это добро в базе лет десять назад.
Я предлагаю не городить сложные связи между не зависящими друг от друга уровнями.
Это элементарное правило вменяемой архитектуры.
Так же, как обеспечение консистентности информации работой с ней только через одну точку входа.
Ваша идея пока смутно очерчена, и только поэтому она кажется вам разрешимой.
Подробности ее проработки будут постоянно требовать новых костылей и преодоления.

Написано более трёх лет назад
АртемЪ @Jump

Сергей Мелодин, Файлы будут часто изменяться, или нет?

Написано более трёх лет назад
АртемЪ @Jump

Но сама идея идентификации файла в момент создания без привязки к его имени, каталогу или содержимому показалась мне максимально простой и очевидной.
И что тут очевидного?
Файл это именованный блок информации.
Две главные и обязательные сущности файла это имя и содержимое.
Вы хотите не привязываться ни к одной, ни к другой.
Этим вы исключаете привязку к файлу.

Если нет привязки к файлу - непонятно тогда вообще в чем проблема, и для чего это.

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

АртемЪ, смотря что имеется в виду под изменением - перемещение, переименование? Возможно, что никогда. А вот контент вполне может меняться из-за опечаток, недостатка информации, устаревания и т.п.

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

АртемЪ,
> непонятно тогда вообще в чем проблема
Я не знаю, почему тут для всех это проблема, кроме Александра (чей ответ отмечен решением). Есть два решения для трёх популярных ОС + тот же inode. Теоретически получается возможным привязаться к файлу, не цепляясь за имя/содержимое/путь. Всё, что мне остаётся - прогуглить эту тему чуть подробнее, сделать пару-тройку экспериментальных файлов и если это окажется совсем неудобный костыль, то я просто поставлю в гите права так, чтобы все изменения в файлах шли через мерж-реквесты и буду сам контролировать.

Написано более трёх лет назад
Adamos @Adamos

Сергей Мелодин,
Я не знаю, почему тут для всех это проблема

Проблема, собственно, не "для всех", а для вас - отвечающим очевидно, что вы городите удивительные велосипеды вместо поиска простых и естественных путей.
Это, конечно, интереснее... но в качестве рабочего решения, увы, не годится.

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

Adamos, пока ничего не горожу, а опираюсь на существующую систему и хочу использовать её в своих целях. Не вижу в этом чего-то экстраординарного, проблема только в универсальности и доступности. Выделил всё это в отдельное обсуждение: https://toster.ru/answer?answer_id=1279499#answers...

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

Нетология

Специалист по информационной безопасности + нейросети

12 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

4 комментария

Сергей Мелодин @melodyn Автор вопроса

Тем linux раскрыта не полностью, но я поищу что-нибудь в этом направлении )

Написано более трёх лет назад
Александр Таратин @Taraflex

Сергей Мелодин, Для линукса - EAs

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

Александр Таратин, extended attributes? Чёрт, я сегодня рядом с ними находился, но ушёл от слова "атрибуты" к "метаданным" и в итоге потерял нужную нить )

Есть ли у вас личный опыт их использования? Интересует, стоит ли овчинка выделки.

Написано более трёх лет назад
Александр Таратин @Taraflex
Сергей Мелодин, Сам не использовал, и не думаю, что у вас получится.
Просто свалите все файлы в дерево папок в стиле
<кусок хеша 1>/<кусок хеша 2>/<кусок хеша 3>/<кусок хеша 4>/

И реальное расположение храните в какой-нибудь базе.
id -> реальный путь
Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

1 комментарий

3 комментария

Rsa97 @Rsa97

но на рабочем ПК почему-то изменения файла приводят к изменению инод и жёсткая ссылка уже отображает неверное содержимое файла.

Многие редакторы при сохранении файла сначала сохраняют его в новый файл , затем переименовывают старый файл , переименовывают новый и только потом удаляют старый файл. Делается это, чтобы при сбое записи не потерять содержимое файла.

Написано более трёх лет назад
Сергей Мелодин @melodyn Автор вопроса

Rsa97, я думаю, дело не в редакторе, а в том, что на рабочем ПК виртуалка с Убунту, а основная система - Винда, будь он не ладна. И из-за этого происходит данный косяк, ибо на виртуалке даже дописывание в файл через >> даёт такое же поведение.

Но о проблеме с редакторами я в курсе, но если получится разрешить проблему с ссылками, то останется только вопрос к PhpStorm - страдает ли он такой болезнью, как пересоздание файлов. Ибо редактировать документацию буду или я, или разработчики, а мы все работает в Шторме.

UPD
Добавил скрин с виртуалкой

Написано более трёх лет назад
Adamos @Adamos

Сергей Мелодин, боги! вы еще и экспериментируете с папкой, проброшенной в виртуальную машину...
Советую при дальнейших экспериментах надевать маску сварщика. Так будет еще интереснее.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+1 ещё

Средний
В BIOS исчезла запись Linux (GRUB) в Boot Priority, как её восстановить?
- 3 подписчика
- 21 июл.
- 373 просмотра
1

ответ
Linux

+4 ещё

Средний
Какое выбрать окружения для S3 Garage?
- 1 подписчик
- 21 июл.
- 132 просмотра
4

ответа
Веб-разработка

+2 ещё

Средний
Как создавать нормальный B2B SaaS? Есть ли какие то ру курсы/литература? Насколько углубленные знания языка программирования должны быть?
- 2 подписчика
- 16 июл.
- 309 просмотров
6

ответов
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 164 просмотра
2

ответа
Linux

Простой
Как переместить неразмеченную область ext4?
- 2 подписчика
- 07 июл.
- 318 просмотров
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 2 подписчика
- 03 июл.
- 309 просмотров
3

ответа
Linux

+1 ещё

Простой
Почему не грузится контент каналов TG через VPN?
- 2 подписчика
- 26 июн.
- 1166 просмотров
1

ответ
Linux

+2 ещё

Средний
Почему не получается войти в bios? Что делать с полосами на экране?
- 1 подписчик
- 21 июн.
- 351 просмотр
2

ответа
Linux

+1 ещё

Средний
Как мне перенести систему Proxmox на меньший диск?
- 2 подписчика
- 21 июн.
- 403 просмотра
4

ответа
Linux

Простой
Курсор «спотыкается» о рамку окна в Астре (ОС для ПК). Как убрать?
- 1 подписчик
- 20 июн.
- 312 просмотров
1

ответ
Показать ещё Загружается…

После прочтения вопроса интуитивное ощущение, что задача решается принципиально не с того конца. Зачем все это? Почему меняются места и имена файлов, на которые ставится ссылка? Как какая-то навигация будет сохраняться при совершенно от нее не зависящих действиях с диском? Что можно считать одним и тем же файлом, если файлы могут быть одинаковыми, а перемещение может быть копированием и удалением оригинала? Что вам, собственно, на самом деле нужно?
Adamos, да, задача возникла из-за того, что нет проекта - никто точно не знает какая будет структура каталогов, что вообще будет записываться в файлы и какие они получат имена. Но я точно знаю, что будет много текстовых файлов и читать их будет нужно не в алфавитном порядке, а в заданном некой логикой.

В настоящее время, когда файлов чуть больше десятка, нет потребности что-то мудрить, но я боюсь, что однажды, например, через год, придётся внести небольшое изменение в структуру и внезапно отвалятся сотни ссылок.

Возможно, этого никогда не случится или проблемы по перелинковке не возникнет, т.к. я обойдусь парой-тройкой регулярных выражений. Но сама идея идентификации файла в момент создания без привязки к его имени, каталогу или содержимому показалась мне максимально простой и очевидной. Поскольку самостоятельно я не определил насколько это адекватная мысль, я и сформулировал то, что есть на данный момент.

Для копирования файлов нет особой причины, т.к. всё версионируется, а вот может быть такое, что виртуалку с документацией помимо меня склонирует кто-то ещё для совместной работы.
Сергей Мелодин, мне представляется не менее простой и очевидной идея класть файл при создании в предопределенное место, а если потом захочется их как-то реорганизовать или сделать выборку - так для этого, черт возьми, вы и делаете какую-то там систему НАД ними. Просто забудьте о том, что к файлам можно будет получить доступ как-то иначе - и ваша проблема исчезнет автоматически.
Adamos, над файлами ничего нет пока что, это просто документация, написанная не одним большим файлом, а множеством мелких с перекрёстными ссылками. Вот как раз моя мысль об автоматизации перелинковки средствами уникальных ключей - это и есть планируемая система НАД ними.

Если я правильно понимаю, то она вам не нравится (да и у меня пока есть сомнения об её успехе), но какой путь вы предлагаете, я пока не улавливаю ) Повесить на главной странице дисклеймер "редактируй файлы только в PhpStorm"?
Сергей Мелодин, если это документация (то есть текст и картинки), на кой ляд вообще хранить ее в файлах?
CMS научились хранить это добро в базе лет десять назад.
Я предлагаю не городить сложные связи между не зависящими друг от друга уровнями.
Это элементарное правило вменяемой архитектуры.
Так же, как обеспечение консистентности информации работой с ней только через одну точку входа.
Ваша идея пока смутно очерчена, и только поэтому она кажется вам разрешимой.
Подробности ее проработки будут постоянно требовать новых костылей и преодоления.
Сергей Мелодин, Файлы будут часто изменяться, или нет?
Но сама идея идентификации файла в момент создания без привязки к его имени, каталогу или содержимому показалась мне максимально простой и очевидной.
И что тут очевидного?
Файл это именованный блок информации.
Две главные и обязательные сущности файла это имя и содержимое.
Вы хотите не привязываться ни к одной, ни к другой.
Этим вы исключаете привязку к файлу.

Если нет привязки к файлу - непонятно тогда вообще в чем проблема, и для чего это.
АртемЪ, смотря что имеется в виду под изменением - перемещение, переименование? Возможно, что никогда. А вот контент вполне может меняться из-за опечаток, недостатка информации, устаревания и т.п.
АртемЪ,
> непонятно тогда вообще в чем проблема
Я не знаю, почему тут для всех это проблема, кроме Александра (чей ответ отмечен решением). Есть два решения для трёх популярных ОС + тот же inode. Теоретически получается возможным привязаться к файлу, не цепляясь за имя/содержимое/путь. Всё, что мне остаётся - прогуглить эту тему чуть подробнее, сделать пару-тройку экспериментальных файлов и если это окажется совсем неудобный костыль, то я просто поставлю в гите права так, чтобы все изменения в файлах шли через мерж-реквесты и буду сам контролировать.
Сергей Мелодин,
Я не знаю, почему тут для всех это проблема

Проблема, собственно, не "для всех", а для вас - отвечающим очевидно, что вы городите удивительные велосипеды вместо поиска простых и естественных путей.
Это, конечно, интереснее... но в качестве рабочего решения, увы, не годится.
Adamos, пока ничего не горожу, а опираюсь на существующую систему и хочу использовать её в своих целях. Не вижу в этом чего-то экстраординарного, проблема только в универсальности и доступности. Выделил всё это в отдельное обсуждение: https://toster.ru/answer?answer_id=1279499#answers...

Answer 1 · 2018-09-25 22:36:42

Записывать ИД первой / последней строкой в файл можно конечно, но это такое себе. Можно с таким же успехом просто давать файлам уникальные имена, это не интересно.

https://habr.com/post/46935/

Answer 2 · 2018-09-26 11:48:01

Полагаю, что если строить свою ИС (инф. сист.) поверх прослойки, работающей посредством FUSE, то все упростится.
В своей нижележащей ФС можно назначать файлам UUID. Файл - это некий объект, с которым может быть ассоциирована такая служебная информация, как имя файла или URI, в общем виде, которые подвержены частым изменениям. Набор таких объектов хранить в некой СУБД (допустим, SQLite).
При монтировании хранилища посредством FUSE в какую-нибудь директорию наружу будут видны как обычные файлы. При изменении имени файла меняется только служебная информация об объекте в хранилище. Хранилище может быть как локальное, так и удаленное. При удалении файла-документа в хранилище можно пометить объект как подлежащий утилизации или же просто удалению. При изменении версии файла-документа меняется содержимое объекта в хранилище. В служебной информации (meta data) можно также хранить хэш от содержимого.

Answer 3 · 2018-09-25 22:37:57

Уникальный идентификатор, * не изменяющийся при * изменении его содержимого

вам сюда

по проблеме- sha 256 от первого гигабайта со всеми вытекающими
либо имя файла
либо (ваш случай) - 42

Answer 4 · 2018-09-26 03:06:30

Готового решения под ваши запросы нет, и в ближайшее время не предвидится.
Сейчас есть множество файловых систем, которые не сохранят ваши супер-метки, и вся красивая задумка разрушится.

Для разминки можете представить что будет, если файл заархивировать, а затем распаковать.
Если создать несколько копий одного файла - на какой из них будет указывать ваша суперссылка?
Если переписать файлы на флешку с fat32 а затем обратно?
Передать по сети?

Вообще для решения этой проблемы придумали URI, но работает, опять-же, не везде и не всегда.

Answer 5 · 2018-09-26 07:50:33

Поскольку разные люди в разных местах пишут на одну и ту же тему, я сокращу изначальный текст:
В линуксе есть жёсткие ссылки. Независимо от действий с файлом жёсткая ссылка продолжает на него ссылаться. Если я правильно понимаю, то жёсткая ссылка привязывается к inode, который ведёт себя несколько непредсказуемо. Например, на домашнем ПК при изменении файла жёсткая ссылка работает корректно:

но на рабочем ПК почему-то изменения файла приводят к изменению инод и жёсткая ссылка уже отображает неверное содержимое файла:

Видимо, связано с тем, что в случае с виртуалкой, система работает с файлами иначе, опираясь на файловую систему родительской машины.

Если у меня получится обеспечить поведение жёсткой ссылки независимо от местонахождения, то это позволит создать, например, каталог links, помещать туда жёсткие ссылки под уникальными именами, в коде указывать ссылку по типу [следующий файл](#my_awesome_hard_link) и задача решена.

Поэтому говорить о том, что это никому не нужно, не существует в природе или "чё ты придумал такое, лол", честно говоря, такое себе.

Возможно ли получить уникальный идентификатор файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт