Хранилище для большого числа средних файлов?

Question

dwar4me @dwar4me

Сетевое администрирование

Хранилище для большого числа средних файлов?

Имеется несколько миллионов файлов, занимающих порядка 1Тб. То есть, средний размер файла — около 250Кб. Файлы только добавляются. Скорость добавления — небольшая. Порядка 25Мб/день. Скорость чтения — порядка 5Мб/с.

Сейчас они хранятся на одном сервере и его ресурсы подходят к концу. Хочется:

1) избавится от единой точки отказа.

2) сделать решение масштабируемым хотя бы в 10 раз.

3) для этого есть 3 сервера, на которых сильно загружен процессор, но диски и память свободны.

4) чтобы в случае выхода из строя одного из серверов, всё восстанавливалось само.

Какие варианты я рассмотрел:

1) ceph. Cephfs — слишком сырая (о чём они сами пишут). Если использовать как блочное устройство, то нужно ядро 3.4+ (а у меня rhel6 — ядро 2.6) + скорость одиночных запросов там не очень быстрая. Плюс они плохо уживаются с другими приложениями на одном сервере.

2) drbd. С его помощью можно избавится от единой точки отказа. Но с масштабированием у него всё плохо. Максимум 3 реплики. В режиме master-master может требовать ручного вмешательства при падении одного из серверов для решения проблем split-brain. Понятия кворум не знает.

3) glusterfs. Есть ощущение, что проект сырой, как и ceph. На форуме видел топик «у меня в последней стабильной версии 3.3.1 зависла фс. Что делать?» — без ответа неделю. На хабре тоже была два поста от одного автора про настройку glusterfs. Во втором автор пишет, что пришлось перейти на новую версию, так как старая зависала по непонятным причинам и решения не удалось найти.

4) iscsi+lvm+gfs2. Есть подозрения, что в режиме master-master, много времени может уходить на локи. Во время тестов, листинг новосозданного маленького файла, занимал 0.5с. Как я понимаю, это в основном время захвата лока на чтение. Этот вариант пока нравится больше всех.

5) cassandra. Из прочитанного про неё, пришёл к выводу, что это больше БД, нежели хранилище данных. Пытается побольше всего в памяти держать и т.д. Нет полной recovery — оно происходит только при чтении данных, или при ручном запуске команды.

Может у уважаемого хабрасообщества есть ещё варианты на примете или есть опыт, который может развеять (или закрепить) мои опасения?

Вопрос задан более трёх лет назад
8954 просмотра

Комментировать

Подписаться 11 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Компьютерные сети

+2 ещё

Средний
Как организовать сеть на Микротике с двумя интернет шлюзами?
- 2 подписчика
- вчера
- 231 просмотр
2

ответа
Компьютерные сети

+2 ещё

Средний
Почему падает качество голоса при исходящих звонках VoIP?
- 2 подписчика
- 14 окт.
- 242 просмотра
0

ответов
Сетевое администрирование

Простой
Можно ли в Windows 10 без виртуальной машины сделать так, чтобы OpenVPN подключение распространялось бы только на конкретные программы?
- 1 подписчик
- 14 окт.
- 190 просмотров
2

ответа
Linux

+2 ещё

Средний
Существует ли готовое решение или проект для организации Linux-шлюза с маршрутизацией, VPN и DPI-обходом?
- 5 подписчиков
- 13 окт.
- 1021 просмотр
2

ответа
Компьютерные сети

+2 ещё

Простой
Как найти обрыв/ короткое замыкание витой пары?
- 2 подписчика
- 11 окт.
- 546 просмотров
5

ответов
Linux

+3 ещё

Средний
FireWall (Linux) для VLESS (Nekoray) и с разными профилями VPN (IP, Port). Как настроить Kill Switch?
- 1 подписчик
- 11 окт.
- 345 просмотров
3

ответа
Компьютерные сети

+2 ещё

Простой
Как из /128 адреса ipv6 самому себе присвоить /64 или даже /48?
- 1 подписчик
- 05 окт.
- 376 просмотров
2

ответа
Linux

+1 ещё

Простой
Как настроить безопасный доступ к внутренним ресурсам за маршрутизатором?
- 3 подписчика
- 02 окт.
- 568 просмотров
4

ответа
Сетевое администрирование

+4 ещё

Средний
Как настроить Kerberos на Windows Server вне домена?
- 3 подписчика
- 01 окт.
- 189 просмотров
1

ответ
Компьютерные сети

+2 ещё

Простой
Зачем нужен Hybrid-порт на коммутаторе?
- 2 подписчика
- 29 сент.
- 545 просмотров
1

ответ
Показать ещё Загружается…

Art Director (TV, Youtube, Реклама)

SDL • Москва

от 190 000 ₽

Системный аналитик (Мои Сервисы)

Сбер • Москва

от 300 000 ₽

QA automation (C#)

Альфа-Банк • Москва

от 200 000 до 350 000 ₽

Answer 1 · 2013-03-31 20:25:02

Идеального решения из опенсорса на данный момент нет. Хотите надежность и стабильность — drbd, хотите масштабируемость — glusterfs и ceph. И блочные устройства ceph точно работают на ядрах 3.2, сам пробовал. Glusterfs мне очень нравится, вот прямо очень-очень, весьма красивый продукт, и развивается Red Hat'ом. Но и ceph и glusterfs не порадовали меня скоростью «ребилда» после смерти и восстановления одной из нод. Правда я пытался их использовать для хранилища виртуалок, в вашем случае может быть этот момент не будет столь критичен. Пока что остановился на drbd — быстро и стабильно. Да, пару раз приходилось править split-brain, ничего страшного в этом нет.

Answer 2 · 2013-03-31 21:42:56

Если не смущает использование БД как масштабируемого хранилища файлов, то можно попроовать mongodb + gridfs + обертка на любом скриптовом языке.

Видео по теме: video.yandex.ru/users/it-people-ekb/view/56/#

Answer 3 · 2013-04-01 12:19:46

Просто рсинкайте их по inotify и не парьтесь, боюсь что ваши нагрузки и бюджеты не позволят развернуть хорошее кластерное решение.

Хранилище для большого числа средних файлов?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт