Время, когда любую задачу машинного обучения гордо обзывали Big Data давно прошло. Big Data тем и отличается от традиционного Mаchine Learning (включая нейронки между прочим), что данных должно быть очень много. Очень. Очень-очень-очень. Настолько много, что вы не в состоянии решить задачу без распараллеливания, без специальных методов работы с постоянной подкачкой и пр. Big Data - это не классификаторы, не кластеризация и не Deep Learning. Это Hadoop и все, что вокруг него, это MapReduce, это Spark, X-plenty, Cassandra, всякие Hana, Teradata, Talend и пр.
Вы точно это имеете ввиду, когда говорите про Big Data? И у вас есть терабайты этих самых данных, и доступ к соответствующим инструментам их обработки? Интернет-магазин, говорите? У вас есть доступ к данным Amazon?
Может для начала стоит хоть с терминологией правильной разобраться (хотя диплом, что-то же вы 4 или 6 лет все-таки учили?), а уж потом думать про диплом.
И если вы все-таки решите писать работу в области Machine Learning, то рекомендую для начала подумать, к каким данным у вас есть реально доступ, а уж исходя из этого и тему придумывать.