да всё верно, читаем -> обрабатываем.
но большинство алгоритмов классических, которые мы обычно используем для обработки данных (например сортировки) имеют класс "оффлайн" алгоритмов -> где для получения ответа нужно сразу все данные предоставить, чего иногда сделать просто не возможно.
посмотрите класс онлайн алгоритмов, и потоковой обработки данных.
например тут
www.cs.dartmouth.edu/~ac/Teach/CS85-Fall09/Notes/l...
ну либо попытаться использовать потоковые фреймворки типа spark.
для обработки логов конечно проще и быстрее написать свои алгоритмы, чем spark колхозить.