Для data-mining нужны большие массивы информации "под рукой". Отталкивайтесь при выборе темы в первую очередь от этого.
- поиск заражений ботнетами по логам корпоративного прокси сервера
- анти-спам
- поиск нехарактерной активности пользователей корпоративной сети
- выявление авторства (идентификация анонимного автора) на интернет-форумах
- поиск зависимостей между новостями на информационных лентах и/или реальными событиями
- прогнозирование любых обменных курсов на основании новостных сайтов
- поиск зависимостей между действиями пользователей в социальных сетях или блогах
в общем фантазия при таких вводных, как у Вас, фактически не ограничена