Добрый день. Могу предложить пару вариантов, но сразу предупреждаю - я далеко не большой специалист в интересующей вас теме.
Hadoop:
1. На Hadoop и Lucene можете попробовать реализовать свой распределенный движок полнотекстового поиска, который умеет в кластере индексировать огромный массив данных.
2. Можно попробовать реализовать преобразование некоторых SQL-запросов в задачи для Hadoop-кластера. Например есть очень большой объем данных, хранящийся в кластере. Вы хотите по нему какую-то статистику получить. Пишите запрос в привычном SQL-виде, он трансформируется в задачи для Hadoop, выполняется, и вы получаете на выходе результат.
Прогнозирование: вместо спортивного тотализатора можно обратить внимание на настоящие биржы: валютные, фондовые и т.д. и написать робота, который бы реализовывал определенную торговую стратегию. У нас на 010501 подобные темы на дипломные работы регулярно брали.