Помощь в проектировании распределенной архитектуры

Question

Антон Марцен @martsen

Программист-дроновод

Помощь в проектировании распределенной архитектуры

Здравствуйте!

Сейчас стоит задача построения распределенного хранилища. Исходные данные: 1) несколько (5 и более) гетерогенно-распределенных площадок 2) каждая площадка генерирует гигабайты/терабайты контента (текст, аудио, видео, записи в разные БД) 3) пользователям для работы нужны данные со всех площадок в равной степени 4) необходимо организовать быстрый поиск по всем файлам, а в будущем построить систему для анализа данных 5) нужна высокая доступность и отказоустойчивость

Сейчас планируем собирать все эти данные в одно единое хранилище, с которым смогут все работать.

Пока понемногу изучаю эту тему и стоит выбор технологии, которую будем использовать. Склоняюсь к развертыванию hadoop, т.к. HDFS и есть возможность разработать необходимый софт.

Вопросы: 1) Оптимален ли выбор Hadoop? Может есть какие-либо другие подходящие технологии? 2) Сейчас данные лежат на разных серверах. Надо будет все это переносить в HDFS или можно как-то "натравить" hadoop на имеющиеся данные без их переноса? Что делать с данными, которые лежат в реляционных БД? Надо будет каждый раз через какой-нибудь SQOOP тянуть их в HDFS для последующей обработки? В общем, надо ли запасаться еще целой кучей жестких дисков?

Буду благодарен за ответы, критику и ссылки на полезные статьи и публикации по этой теме.

Вопрос задан более трёх лет назад
2897 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Сетевое администрирование

+2 ещё

Простой
Большая задержка в появлении файлов на сетевом диске. Как устранить проблему?
- 2 подписчика
- 13 авг.
- 350 просмотров
1

ответ
Компьютерные сети

+1 ещё

Простой
Какой есть софт для общей папки (3-5 пользователей Windows в локалке)?
- 5 подписчиков
- 10 авг.
- 4116 просмотров
12

ответов
Хранение данных

Средний
Альтернативный Linux для Huawei OceanStore 5300 V3?
- 1 подписчик
- 05 авг.
- 48 просмотров
0

ответов
Хранение данных

Средний
Какое есть бесплатное решение для организации файлообменника?
- 1 подписчик
- 16 июл.
- 279 просмотров
6

ответов
Хранение данных

+2 ещё

Простой
Какой размер пакета NFS выбрать?
- 1 подписчик
- 14 июл.
- 108 просмотров
1

ответ
Хранение данных

Простой
Где взять сервер в аренду с большим обьемом дисков?
- 2 подписчика
- 02 июл.
- 2970 просмотров
2

ответа
Хранение данных

+1 ещё

Простой
Как бороться с растаскиванием/многократным дублированием файлов/папок на файловом сервере?
- 1 подписчик
- 22 мая
- 497 просмотров
4

ответа
Хранение данных

+1 ещё

Простой
Есть ли опыт использования SDS DataCore Symphony? Существуют ли более доступные альтернативы в РФ?
- 1 подписчик
- 19 мая
- 96 просмотров
2

ответа
Резервное копирование

+1 ещё

Средний
Как можно осуществить резервное копирование каждый день, если работа проходит в облаке mail (~200гб)?
- 1 подписчик
- 28 апр.
- 239 просмотров
4

ответа
Хранение данных

Простой
Как восстановить фал образа диска?
- 1 подписчик
- 17 мар.
- 108 просмотров
0

ответов
Показать ещё Загружается…

Разработчик в Единое хранилище данных

Яндекс • Москва

от 300 000 до 490 000 ₽

Администратор баз данных

Дальневосточный банк • Владивосток

от 250 000 ₽

Инженер баз данных

Сбер • Санкт-Петербург

До 100 000 ₽

Answer 1 · 2013-11-14 18:54:59

Мы используем Cassandra. Минусы: сложно поддерживать, сложно работать с ней.

Hadoop в принципе не зависит от типа хранилища. YARN (их Map/Reduce 2.0) позволяет работать на любых данных.

Answer 2 · 2013-12-09 13:56:26

joann @joann

Посмотрите Spark (spark.incubator.apache.org) и Hadoop от MapR

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2014-08-20 23:23:07

Вопросы делают цели проекта более мутными.
С одной стороны вы говорите, что "нужна высокая доступность и отказоустойчивость", а потом идет вопрос "Сейчас данные лежат на разных серверах. Надо будет все это переносить в HDFS или можно как-то "натравить" hadoop на имеющиеся данные без их переноса?"

Соответственно производные вопросы:
* Эти данные и сервисы доступа к данным в гетерогенных площадках сами удовлетворяют требованиям доступности и отказоустойчивости?
* Интерфейсы доступа к площадкам из Hadoop-а (или аналога) удовлетворяют требованиям доступности и отказоустойчивости? Не возникает ли тут обычная проблема надежности систем с распределенными данными (data federation)?

Если не удовлетворяют, то логично концентрироваться на централизованном хранении в hadoop и соответственно сливе туда всех данных.
Если удовлетворяют, то разумным кажется комбинированное решение, состоящее из трех подсистем:
* Индексирование - обеспечение быстрого поиска по неструктурированным данным. Посмотрите SolrCloud, например, как составная часть Hadoop от Cloudera. Индексировать можете данные прямо из источников.
* Виртуализация данных - система, предоставляющая единый вид табличных данных над совокупностью разнородных распределенных баз данных (хоть в облаках). Нужно для детального drill-down анализа без необходимости перетаскивать все в центральное хранилище (Hadoop?). По-моему, такие решения есть у SAS, у SAP BI, Red Hat JBoss Data Virtualization
* BigData analysis - система, позволяющая делать анализ очень больших объемов. Здесь может быть и Hadoop. Ключевая особенность - в эту систему вы перетаскиваете только те очень большие данные, которые вам действительно нужно анализировать. А не все подряд.

Ну и не будем забывать, что в Hadoop не очень удобно хранить video/audio данные. На HDFS слишком много файлов не положите (есть ограничение по кол-ву файлов), а если файлы не большие, то отнимать будут они все-равно блоки по 256Мб (да умножить на 3). Если наоборот будете класть большие файлы в HBase, например, то, насколько мне известно, он не поддерживает потоковой передачи данных из бинарного поля - читать придется всегда весь массив байт одного видео материала. ИМХО, для этих целей больше подходят объектные хранилища, типа Swift (OpenStack). Хотя все зависит от сценариев использования.

Помощь в проектировании распределенной архитектуры

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт