@nickolas_php

Какую hardware конфигурацию нод выбрать для кластера Hadoop?

Раньше с задачами аналитики у нас справлялась Vertica + Tableau, но даных уже больше 1TB + много проблем с нагрузкой, потоковой обработкой данных + нужно расширяться. Со всем этим должен хорошо справиться Hadoop кластер. Со старта там будет 3-8TB данных. Будет Spark Streaming для обработки потока данных с сайта с realtime визаулизацией основных показателей продукта(Окупаемость, активность и т.д.). В рунете информации очень мало. Всё что удалось найти на англоязычных ресурсах Я постарался осмыслить и отобразить для будующего поколения в этой статье: bigdata-intips.blogspot.com/2015/10/hadoopwith-spa... . Но это только базовые понятия о том что из себя представляет hardware конфигурация кластера и показатели очень разнятся от источника к источнику. Нужно взять с запасом на пол года и не хочеться потратить деньги и получить bottleneck в СPU или в Network или в memory. Если есть опыт в администрировании Hadoop кластера, то подскажите, пожалуйста, основные варианты характеристик NameNode, DateNode и других необходимых серверов в продакшен окружении с наиболее релевантным соотношением цена/производительность. Спасибо за помощь!
  • Вопрос задан
  • 570 просмотров
Решения вопроса 1
@UNIm95
Вопрос как всегда в бюджете.
Хоть и говорят что хадуп дешёвый но это не совсем так.
На Name/Managment Node нужна мощная желека.(4-8 ядер, 48+ГБ рам, RAID5(6) с hotspare)
На Data/Worker можно попроще но с хорошей дисковой системой и большей оперативкой(4-6 ядер 48+ГБ рам, RAID1 система, JBOD теров 10).
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы