Раньше с задачами аналитики у нас справлялась Vertica + Tableau, но даных уже больше 1TB + много проблем с нагрузкой, потоковой обработкой данных + нужно расширяться. Со всем этим должен хорошо справиться Hadoop кластер. Со старта там будет 3-8TB данных. Будет Spark Streaming для обработки потока данных с сайта с realtime визаулизацией основных показателей продукта(Окупаемость, активность и т.д.). В рунете информации очень мало. Всё что удалось найти на англоязычных ресурсах Я постарался осмыслить и отобразить для будующего поколения в этой статье:
bigdata-intips.blogspot.com/2015/10/hadoopwith-spa... . Но это только базовые понятия о том что из себя представляет hardware конфигурация кластера и показатели очень разнятся от источника к источнику. Нужно взять с запасом на пол года и не хочеться потратить деньги и получить bottleneck в СPU или в Network или в memory. Если есть опыт в администрировании Hadoop кластера, то подскажите, пожалуйста, основные варианты характеристик NameNode, DateNode и других необходимых серверов в продакшен окружении с наиболее релевантным соотношением цена/производительность. Спасибо за помощь!