Какую модель распределенных вычислений использовать?
Суть такова - есть файлы с сырыми данными, необходимо сделать распределенную обработку данных и вернуть результат (возможно запись в бд). Почитал про MapReduce, но он основывается на паре ключ/значение, что не подходит так так данные редко повторяются. И в идеале чтобы нагрузка распределялась в зависимости от нагрузки серверов. Одной из проблем является "Локальность данных", потому как проблемой может стать передача данных между серверами.