Определите для начала, у Вас действительно BIG Data или просто Data.
BIG характеризуется:
1. Огромные объёмы данных (в ТБ +-)
2. Огромная скорость их генерации (в ГБ/сек +-)
3. Высокая требуемая скорость их обработки (вплоть до real-time)
4. Неструктурированность (голос, текст, числа, двоичные данные) и множество источников их поступления (датчики, сохранённые ранее данные и т.п.)
Судя по Вашему вопросу, у Вас подходит только п.4 - поправьте, пожалуйста, если ошибаюсь.
Ещё важный момент - для чего Вы планируете использовать результаты анализа этих данных? Вопрос задаю потому, что под многие задачи уже есть готовые решения - типа сервиса товарных рекомендаций RetailRocket (не реклама, просто привожу как пример) для интернет-магазинов, задача которого - рост среднего чека по покупкам.
Так вот, в зависимости от Ваших задач вполне возможно, что Вам будет достаточно некоторого самописного или готового софта, в т.ч. и без лейбла Big Data ))
Опять-таки, как пример - мы в своё время делали простую систему прогнозирования продаж для крупного дистрибьютора на связке Terrasoft BPM'online + 1С + Deductor. В проекте мы оперировали примерно 27 000 единицами номенклатуры и 250 000 позиций в отгрузках за год. Разбивку делали по 3 филиалам и 20 товарным категориям. Из 1С брали факт по реализациям, загоняли всё это в Deductor для построения прогноза (при этом в BPM'online вручную указывали коэффициенты сезонности - проект был достаточно простой), из Deductor-a перегружали данные в BPM для наглядной аналитики и привязки прогнозов продаж к планам работы менеджеров (кроме прогноза, мы ещё в BPM'online вели аналитику по суммарным потребностям клиентов, и проводили сравнение прогноза продаж данному клиенту и известной потребностью клиента и при сильном отставании прогноза от потребности "натравливали" менеджеров на этого клиента).
Какую задачу Вы хотите решить?