Для начала надо понять нужна ли Вам Big Data
habrahabr.ru/post/194434
Если у вас не совсем Big Data, то можно взять вот такие инструменты:
1. Pandas - обработка данных, I/O
2. Sklearn - построение моделей
3. В плане БД для хранения возможны варианты:
3.1 SQL-базы - SQLite, постгрес
3.2 NoSQL - Mongo и т.д.
4. Если предполагается, что часть данных будет использоваться более активно, т.е. вам нужно горячее кеширование - возьмите Redis или его аналоги
Если у Вас действительно Big Data, то на мой взгляд вам хватит следующих инструментов:
Apache Kafka - онлайн процессинг данных
Apache Sqoop - для того чтобы тягать данные из реляционных баз
Apache Hive - чтобы все это хранить в удобоваримом виде
Apache Spark - чтобы строить предиктивные модели и всякие неклассические группировки
С визуализацией дела обстоят сложнее. Для начала нужно понять какая визуализация нужна - статическая или динамическая + язык, на котором лично Вам будет удобнее писать визуализацию.
Если визуализируем в статике (в .jpg файлы, например), то вот так:
R - lattice,ggplot2
Python - matplotlib,seaborn
Если хотим суперклассные дешборды в реалтайме, то вот так:
R - Shiny
Python - bokeh
P.S. Вы бы для начала написали какие источники данных у Вас, будет проще понять что копать и какими инструментами.