Здравствуйте.
Как аккуратно подобрать аппаратную конфигурацию кластера в лабораторию, предназначенного для задач моделирования (CFD) и машинного обучения?
Сам я решение представляю следующим образом:
кластер состоит из блейдов, пока в одну стойку, каждый блейд имеет на борту:
- CPU: на Xeon, типа E5-2667 v3 (Haswell) от 2 до 4 на плату;
- Memory: не менее, чем по 128 ГБ, подбор конкретных планок по материнской плате;
- GPU: Nvidia Tesla K80, по 2 на плату;
- Network: Infiniband для связи между узлами;
- SSD - много не надо на каждый узел, хватит по 250 ГБ;
- Остальное - управляемое питание и проч. - уже к стойке.
Но все это я просто предполагаю, идя от требуемой производительности. Что еще мне нужно учесть? С электропитанием вопросов нет, т.к. есть отдельная серверная.
Нужно как-то учитывать характеристики ОС для его конфигурации? Я предполагаю использование RHEL/CentOS на нем.
Наверняка я не представляю даже 10% от подводных камней, связанных с конфигурированием и настройкой, поделитесь, пожалуйста, опытом, о чем еще полезно думать, до покупки железа?
Спасибо.