У нас в стартапе появилось несколько задач, которые сводятся к класической парадигме Map Reduce. Мы хотим раскидывать задачи на несколько серверов. На какие решения стоит смотреть? На что стоит обратить внимание?
Сейчас я думаю о двух решениях: 1. знаменитый Hadoop — про него много говорят и он везде на слуху, но нужен ли он нам — задачи вроде не сложные. 2. это просто написать map reduce руками с помощью akka раскидать по серверам и не париться.
Надо сказать, что с akka у нас у всех в команде есть опыт, а с Hadoop ни у кого — но у тимлида «чешется» попробовать Hadoop. Мне бы хотелось знать стоит ли и отговорить с аргументами и альтернативами.
Hadoop заточен под большие кластера из средних и слабых машин. Если у вас несколько мощных серверов, то с Хадупом вас ожидает много бессмысленных телодвижений (кода), несколько неприятных ограничений и, возможно, 1-2 лишних копирования данных на задачу. Насчет Akka и других решений ничего не знаю, но по-моему в данном случае Hadoop подходит не очень хорошо.