Здравствуйте!
Сейчас стоит задача построения распределенного хранилища. Исходные данные: 1) несколько (5 и более) гетерогенно-распределенных площадок 2) каждая площадка генерирует гигабайты/терабайты контента (текст, аудио, видео, записи в разные БД) 3) пользователям для работы нужны данные со всех площадок в равной степени 4) необходимо организовать быстрый поиск по всем файлам, а в будущем построить систему для анализа данных 5) нужна высокая доступность и отказоустойчивость
Сейчас планируем собирать все эти данные в одно единое хранилище, с которым смогут все работать.
Пока понемногу изучаю эту тему и стоит выбор технологии, которую будем использовать. Склоняюсь к развертыванию hadoop, т.к. HDFS и есть возможность разработать необходимый софт.
Вопросы: 1) Оптимален ли выбор Hadoop? Может есть какие-либо другие подходящие технологии? 2) Сейчас данные лежат на разных серверах. Надо будет все это переносить в HDFS или можно как-то "натравить" hadoop на имеющиеся данные без их переноса? Что делать с данными, которые лежат в реляционных БД? Надо будет каждый раз через какой-нибудь SQOOP тянуть их в HDFS для последующей обработки? В общем, надо ли запасаться еще целой кучей жестких дисков?
Буду благодарен за ответы, критику и ссылки на полезные статьи и публикации по этой теме.