Само понятие 'большие данные' подразумевает что данных ТАК МНОГО что обычные подходы и инструменты не катят.
Например (все цифры от балды, только чтобы показать порядок проблемы), вам надо обработать логи вашего веб сервера, ваши скрипты перелопачивают данные за сутки посещаемости - за пол часа на вашем домашнем компьютере. А теперь попробуйте обработать логи какого-нибудь avito или яндекс, даже нагрузив все ваши домашние компьютеры, телефоны, роутеры, компьютеры ваших друзей, родни и даже компы в вашем классе, ваш скрипт все равно не будет успевать их обрабатывать, так как их будет поступать больше на порядок.
Это и есть big data.
Т.е. задачи в этой области стоят такие, чтобы искать нестандартные подходы к решению, либо менять алгоритм, чтобы он позволил увеличить эффективность обработки на порядки (т.е. это не оптимизация кода а именно смена подхода), либо вам потребуется действительно большой кластер машин, а это дорого.
Чтобы изучать и экспериментировать, сами большие данные не нужны, хотя чтобы протестировать алгоритмы, выборки из них понадобятся.