1. Различие в объеме между 2 ГБ и "несколькими терабайтами" - очень немаленькая. Вы уверены, что терабайтные объемы будут вами достигнуты в обозримом будущем?
2. В фаловой системе NTFS теоретический размер файла может быть до 32 эксабайт. Практически - немного меньше, но думаю, вам должно хватить.
3. Глупо или не глупо держать в файле зависит не от объема информации, а от того, что вы хотите с ней делать. Если просто хранить в нужном формате а потом скармливать своей нейронке, то переход к любой БД вам ничего не даст, кроме замедления работы и УВЕЛИЧЕНИЯ расхода ресурсов.
4. Если вы перейдете к БД, то у вас два пути. Либо перед загрузкой в нейронку переформатировать ваши данные - возможно не все сразу, а по частям - в формат, воспринимаемый нейронкой. Либо писать свой код работы с БД, и имплементировать его в используемую библиотеку (благо много нейронок имеют его в виде Open Source). Варианты не сильно отличаются друг от друга по сложности.
5. "Не хватит оперативки" - это если вы используете алгоритм класса "in memory". Надо искать (или писать нейронку), которая лишена этого недостатка. Такие вопросы можно гууглить по ключевому слову "Streaming algorithm".
5. Если действительно вдруг вы выскочите в область Big Data c необходимостью работы в потоковом режиме(пока вы явно не там) - то придется посмотреть в область Hadoop и Spark. Но это - совсем другая история.