Какой есть оптимальный алгоритм загрузки ассоциированного файла?

Question

makaleks @makaleks

Веб-разработка

Какой есть оптимальный алгоритм загрузки ассоциированного файла?

Пишется домашний проект, в котором есть веб-редактор текста (plaintext) с желаемой возможностью прикреплять по id-ссылке ресурсы (картинки, документы и тому подобное). Выход проекта, во избежание зоопарка - единый бинарник (rust, его стэком и ограничен).

Не выходит нагуглить алгоритм согласованного сохранения текста и ресурсов, чтобы by-design было, по приоритетам, следующее:
1. никаких битых ссылок на ресурс
2. диск не засоряется при удалении ссылки на ресурс или прерывании процесса обновления текста, содержащего ссылку
3. минимальное число записей, а лучше и чтений диска
4. текстов и ресурсов может быть много

По второму полагаю нужна 'чистка' как часть инициализации сервера, по третьему может как дополнительный хак - удалять небольшие ресурсы не сразу, а по таймеру на случай, если пользователь передумал удалять. А накидал алгоритм пока такой:

картинка

Выглядит нагружено, много обращений к диску, наверняка какие-то шаги имеют подводные камни, да и подход в алгоритме может быть просто неверен

Так что нужна помощь

Спасибо

Вопрос задан более трёх лет назад
296 просмотров

Комментировать

Подписаться 4 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

Веб-разработчик с нуля: профессия с выбором специализации

14 месяцев

Далее
Академия Эдюсон

Веб-разработчик Базовый

9 месяцев

Далее
ProductStar × РБК

Профессия: Web-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 2

7 комментариев

makaleks @makaleks Автор вопроса

Ресурс, как я понимаю, грузится долго, текст быстро. Если прервать работу сервера (это далеко не 24x7 история), останутся мусорные ресурсы. А открывать и парсить каждый файл текста (или каждый список, а ведь согласованность этого списка тоже могла поломаться) плюс проверять каждый ресурс я очень не хочу

Написано более трёх лет назад
Антон Шаманов @SilenceOfWinter
Makaleks, мусор можно удалять по крону раз в пол часа - всё что не в списках можно удалять. я предполагал хранение в БД, если все на файлах, то просто сохраняй состояние страниц в js файлах, что-то вроде :
callback({ id: "номер страницы", files: [{id: "хэш пути 1", path: "путь 1"}, {id: "хэш пути 2", path: "путь 2"}] });
Написано более трёх лет назад
makaleks @makaleks Автор вопроса

Спасибо за вариант. Я пока надеюсь устроить транзакционность на месте, без нагрузки "потом", без других агентов

Написано более трёх лет назад
Антон Шаманов @SilenceOfWinter

Makaleks, хозяин-барин, просто ты сначала говоришь о домашнем проекте, а потом всплывает
Если прервать работу сервера

Написано более трёх лет назад
makaleks @makaleks Автор вопроса

Антон Шаманов, на то он и домашний, что прорабатывается, а не
просто-сделай-в-срок-что-хочет-пм

Написано более трёх лет назад
makaleks @makaleks Автор вопроса

Антон Шаманов, а ещё прерывание сервера входит в хотелку №2 оригинальной постановки

Написано более трёх лет назад
Антон Шаманов @SilenceOfWinter

Makaleks, сервер временами не доступен это не тоже самое что и прерывание выполнения работы скрипта, последнее обычно либо user_abort, либо срабатывание max_execution_time

Написано более трёх лет назад

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 226 просмотров
3

ответа
Веб-разработка

Простой
В какой программе/сайте можно создать и выгрузить html сайт?
- 3 подписчика
- 21 июн.
- 874 просмотра
3

ответа
Веб-разработка

+2 ещё

Средний
Как избежать вездесущего agentic coding и остаться в IT?
- 8 подписчиков
- 01 июн.
- 3726 просмотров
12

ответов
Веб-разработка

+2 ещё

Средний
Как правильно хранить видео в Django?
- 2 подписчика
- 28 мая
- 463 просмотра
3

ответа
Веб-разработка

Простой
Какую панель для хостинга выбрать в моём случае?
- 2 подписчика
- 25 мая
- 512 просмотров
6

ответов
Веб-разработка

+1 ещё

Средний
Изоляция сетевого слоя (WebSockets/Fetch) в Web Worker для высоконагруженного UI: используют ли такой паттерн в реальном проде?
- 1 подписчик
- 24 мая
- 224 просмотра
4

ответа
Веб-разработка

+1 ещё

Средний
Safari помечает легитимный сайт как мошеннический. Google clean, Apple не отвечает. У кого был похожий опыт?
- 2 подписчика
- 22 мая
- 249 просмотров
2

ответа
Веб-разработка

+2 ещё

Сложный
Сайт висит при первом заходе на него. Как такое исправить?
- 3 подписчика
- 20 мая
- 1180 просмотров
4

ответа
Веб-разработка

Средний
Каков план обучения для веб разработки аналога foodsharing.de?
- 1 подписчик
- 19 мая
- 195 просмотров
1

ответ
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 340 просмотров
5

ответов
Показать ещё Загружается…

Answer 1 · 2021-09-01 13:50:07

чет как-то слишком сложно - формируешь скрытый список прикрепленных файлов по мере их добавления/удаления тегов (a/img), перед сохранение проверяешь список на отсуствующие файлы и сообщаешь пользователю о имеющихся проблемах и пусть сам решает как с ними быть - удалить ссылку или же перезалить файл. при удалении страницы с текстом удаляем все файлы по списку кроме тех что содержатся в списках файлов других страниц.

Answer 2 · 2022-01-17 12:48:52

Узнал о существовании такого понятия, как журнал упреждающей записи (WAL). В результате веду файл журнала с блоками аннотацией {флаги вроде готов к удалению/готов к дампу, неубывающий идентификатор, зависимости, зависимый, ожидаемый размер и ещё что-то} и срезов данных {тот же идентификатор, N байт кусочка файла}. По ходу выгрузки строится дерево зависимостей, и как только все ноды оказались в WAL, ставлю флаги готов к дампу и начинаю запись. Случится нарушение - восстановлю недозаписанную транзакцию по WAL, истечёт актуальность - помечу блоки как готов к удалению.

Можно, конечно, вместо срезов полученных данных писать во временные файлы - тогда запись дампа будет выглядеть как просто перемещение файла, что дешевле и быстрее освобождает место - но это больше сущностей в и так непростом велосипеде (пока актуальнее добиться аккуратной обработки дерева зависимостей, с тестами). Плюс понадобится проверять актуальность на файловой системе на случай, если [все блоки получены]=>[оригинал перезаписан]=>[транзакция прервалась, а некоторых временных файлов не осталось]. В таком случае можно предложить перебраться на sqlite, но выигрыша по сравнению с уже написанным простым wal не вижу.

Какой есть оптимальный алгоритм загрузки ассоциированного файла?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт