Оптимальный способ хранения небольших растровых изображений. Объем > 400 Gb. БД или FS?

Question

ryzhikovas @ryzhikovas

Оптимальный способ хранения небольших растровых изображений. Объем > 400 Gb. БД или FS?

Стоит задача хранения большого числа снимков поверхности Земли. Текущая реализация предполагает представления всей поверхности (за исключением приполярных областей) в проекции Меркатора. Этот виртуальный растр разбивается на фрагменты 256x256 - тайлы. Такое представление выполняется для каждого из предопределенных уровней масштабного представления.
На данный момент атрибутивная информация о снимках хранится примитивным образом с использованием SQLite. Для тайлов разработано хранилище на базе структуры каталогов ФС. Распределение по каталогам соответствует B-tree индексации (а-ля google maps, bing). Скорость получения фрагмента растра вполне устраивает. Однако много времени потратил на реализацию велосипедов - механизма транзакций, логгирования. Вопрос - насколько эффективно (в первую очередь под эффективностью здесь понимаю скорость выполнения операции выборки растровых данных) подобное можно было бы реализовать штатными средствами PostgreSQL / MySQL / ets? Какие особенности БД (кроме межпроцессного взаимодействия) снизят скорость чтения данных по сравнению с доступом к небольшим "сырым" файлам в ФС?

Вопрос задан более трёх лет назад
583 просмотра

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 4

Комментировать

4 комментария

ryzhikovas @ryzhikovas Автор вопроса

Спасибо за совет (nginx). Пока надобности в нем нет (БД и единственный клиент в одной локальной сети). В дальнейшем, возможно, понадобится. На счет предварительной подгрузки максимально используемых тайлов - смысла нет, т.к. запрос любого фрагмента равновероятен (система используется для уточнении геопривязки поступающих снимков по текущему покрытию. Людей, которые рассматривают свои города, нет:) ). Упреждающее кэширование использую при просмотре карты.

Написано более трёх лет назад
xmoonlight @xmoonlight

ryzhikovas: я бы посоветовал для Вашего случая держать процесс к БД с Persistent connection и через ORM писать и читать данные. Это будет значительно быстрее, чем сырые файлы в ФС.

Написано более трёх лет назад
ryzhikovas @ryzhikovas Автор вопроса

Если есть время, объясните пожалуйста, за счет каких механизмов "значительно быстрее, чем сырые файлы в ФС". Речь сейчас про передачу по сети или про выборку с диска вообще? Если про работу в целом, то что мне при работе с файлами, что СУБД приходится читать данные с диска и в этом отношении скорость постоянна. Если вы имеете в виду выигрыш в скорости за счет кэширования в объектной БД - то это не совсем верно, т.к. зная логику формирования растра из тайлов я реализовал эффективное кэширование с учетом пространственной близости соседних по географическим координатам тайлов.

Написано более трёх лет назад
xmoonlight @xmoonlight

ryzhikovas: ставьте пару-тройку SSD и туда все тайлы и конец обсуждению.

Написано более трёх лет назад

3 комментария

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

Простой
Как вы работаете с Milvus в контексте RAG-системы?
- 1 подписчик
- 25 июн.
- 81 просмотр
1

ответ
Node.js

+2 ещё

Простой
Как сделать регистрацию без слета через fs?
- 1 подписчик
- 03 июн.
- 164 просмотра
2

ответа
Базы данных

+1 ещё

Простой
Какую базу данных нужно использовать для телеграмм бота?
- 1 подписчик
- 10 мая
- 4813 просмотров
9

ответов
IT-образование

+1 ещё

Простой
С чего начать изучение инженерной части БД?
- 2 подписчика
- 23 апр.
- 380 просмотров
3

ответа
Python

+2 ещё

Простой
Корректно ли в данном случае отправляется запрос в базу данных?
- 1 подписчик
- 23 апр.
- 209 просмотров
2

ответа
Базы данных

Простой
БД для дискорд-бота?
- 1 подписчик
- 17 апр.
- 146 просмотров
1

ответ
Android

+4 ещё

Простой
Какие ресурсы нужны для разработки AR приложения на Unity для «оживления» фото в школьном альбоме?
- 1 подписчик
- 17 апр.
- 221 просмотр
1

ответ
Базы данных

Простой
Какие есть утилиты для автоматизированного проектирования БД?
- 3 подписчика
- 02 апр.
- 2762 просмотра
5

ответов
Базы данных

Простой
RBAC: когда создавать нового пользователя в ДБ?
- 2 подписчика
- 26 февр.
- 204 просмотра
1

ответ
Базы данных

+1 ещё

Простой
Какую скачать СУБД для БД SQlite?
- 1 подписчик
- 15 янв.
- 527 просмотров
5

ответов
Показать ещё Загружается…

Системный аналитик

Synapse AI • Москва

от 130 000 ₽

Golang Developer

ITK academy • Казань

от 75 000 до 120 000 ₽

Программист 1С

Первый мясокомбинат • Нижний Новгород

от 100 000 ₽

Answer 1 · 2015-04-05 01:09:24

Конечно ФС!
Только тут главное правильно распределить это дело =)
Т.е. не в одну папку сразу скидывать все 400Гб, а например по каким либо критериям (хоть по названию, хоть как).
Упс, пардон за очевидность, не прогрузился пост до конца.

База ведь так же хранит эти файлы на диске, причём sqlite - одним файлом .
В тонкости не вникал, т.к. мал ещё, но мне было проще распределять по файлам, возможно какие-либо оптимизации помогут.
Использовал xfs.
Плюс ещё в том, что можно в несколько потоков спокойно отображение делать.

Но Вы, наверное, это и так знаете, скорее всего ответ для таких как я =)

Answer 2 · 2015-04-05 02:31:04

1. Пути к тайлам - в базе.
2. Картинки - в на диске с prefetching and caching в ОЗУ. По-скольку статика: nginx.
В принципе, нужно посчтитать: вполне возможно есть смысл при загрузке "холмы" (или всю матрицу тайлов) закинуть сразу в RAM-drive.
"Холмы": их вершины - это часто используемые тайлы. Как правило - это центры крупных городов (можно набрать статистикой использования).

Answer 3 · 2015-04-05 04:37:34

Можно взять MongoDB, плюсы такие:
* При большой нагрузке или объеме можно будет данные разлить по шардингу. Это так же может помочь сэкономить, например можно вместо одного сервера DO за $480 можно взять 24 минимальных виртуалки за $120, + будет больше ядер и трафика.
* Можно хранить доп. параметры, теги, (атрибутивную информацию) и прочее вместе с файлом, таким образом тайл и все с ним связанное будет в одном блоке данных, в отличие от применения *sql. Это хорошо для производительности, т.к. меньше индексов и меньше обращений к ФС.
* Можно сделать доп. индексы
* Можно использовать гео-индексы, выборка тайлов по радиусу и т.п.
* Так же для данной задачи (вполне возможно) достаточно атомарных комитов, они лучше по производительности чем полноценные транзакции.

Answer 4 · 2015-04-05 22:09:33

Лично я склоняюсь к БД. Например, SQLite. Только, естественно, не одним файлом, а разбить на "блоки". Идею можно посмотреть в SAS.Планете (кэш BerkeleyDB) или в SACS, там прямо в SQLite есть кэш.

По поводу FS - не всякая система способна выдержать такую нагрузку (Windows XP и 50 миллионов файлов в кеше SASGIS), так что нужно смотреть на её тип и проверять под нагрузкой.

Если вопросов по надёжности FS не возникает и вы в ней уверены, то стоит рассмотреть вопрос бэкапов, а именно, удобство и скорость их создания и восстановления. Имхо, бэкапить миллионы тайлов очень неудобно, поэтому БД тут дадут фору.

Оптимальный способ хранения небольших растровых изображений. Объем > 400 Gb. БД или FS?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт