Посмотрите в сторону Apache Spark. Я летом проходил курс по нему
https://courses.edx.org/courses/BerkeleyX/CS100.1x...
там одной из первых лабораторок была как раз задача на парсинг логов Апача.
Спарк во-первых гораздо более человеко-любив, чем Хадуп и проще в основении.
Во-вторых за счет того, что можно хранить все данные в памяти скорее всего будет быстрее, если у вы выделите под него машины с достаточным объемом RAM. В общем я бы советовал потратить пару часов на изучение, в том курсе, который я скинул дается готовый Vagrantfile. Скачиваете сам Vagrant, потом Virtualbox, делаете vagrant up и у вас готовое окружение, можно пробовать решать ваша задачу.