• Какую hardware конфигурацию нод выбрать для кластера Hadoop?

    @nickolas_php Автор вопроса
    Тоесть Я правильно понял, что на каждой DataNode нужно поставить 2 диска по 5TB в RAID1 = 5TB. Поскольку HDFS по умолчанию делает 3 копии(2 локально + 1 на другой DataNode) файла, то на 3-х DataNode мы получим HDFS размером 5TB.

    -Действительно ли нужен RAID1 на DataNode ведь HDFS тоже заботится об избыточности(2 локально + 1 на другой DataNode)?

    -Достаточно ли 3 DataNode с RAID1 по 5TB?

    -Не хочется прогадать с объёмом оперативной памяти так как планирую попробывать Hive, HBase, может даже Impala..
    На данный момент составил такую конфигурацию: 2 Name/Managment(c head процессами NameNode + Standby NameNode + JobTracker + Zookeeper + HBaseMaster etc.) и 3 Data/Worker(HDFS + Spark etc.):
    Hardware конфигурация Data/Worker(3шт): xeon e5 6-cores, 64GB-96GB RAM, 2 disk RAID1 5TB, 2х1GbE network
    Hardware конфигурация Name/Managment(2шт): xeon e5 6-cores, 96GB-128Gb RAM, 5 disk RAID5 1TB, 2х1GbE network
    Буду рад услышать Ваши коментарии по каждой характеристики(особенно есть сомнения к объёму оперативной памяти).
    Какие диски посоветуете для Name/Managment? 5 дисков на 1TB в RAID5 для Name/Managment достаточно/мало/много?, Сильно ли зависит производительность от кол. дисков на 1 ядро СPU и т.д?