Как запустить Нейросеть с большими объемами инф?

Сейчас использую готовую нейросеть от разработчика.
Данные для нейросети хранятся в json файле, принципе как и все нейросети которые я встречал.
Уже они весят порядка 2-х гигов... И постоянно они будут увеличиваться в размере.

Что делать если данных у меня на несколько терабайт???
Такой объем будет глупо держать в файле. Ну и оперативки не хватит.

Первое что приходит на ум использовать базу данных. Но тут сразу возникает вопрос как сделать или заставить нейросеть работать с базой данных...? Какую БД использовать?

Подскажите пожалуйста ваши соображения по данному вопросу, что изучать, что смотреть.
  • Вопрос задан
  • 156 просмотров
Решения вопроса 1
@dmshar
1. Различие в объеме между 2 ГБ и "несколькими терабайтами" - очень немаленькая. Вы уверены, что терабайтные объемы будут вами достигнуты в обозримом будущем?
2. В фаловой системе NTFS теоретический размер файла может быть до 32 эксабайт. Практически - немного меньше, но думаю, вам должно хватить.
3. Глупо или не глупо держать в файле зависит не от объема информации, а от того, что вы хотите с ней делать. Если просто хранить в нужном формате а потом скармливать своей нейронке, то переход к любой БД вам ничего не даст, кроме замедления работы и УВЕЛИЧЕНИЯ расхода ресурсов.
4. Если вы перейдете к БД, то у вас два пути. Либо перед загрузкой в нейронку переформатировать ваши данные - возможно не все сразу, а по частям - в формат, воспринимаемый нейронкой. Либо писать свой код работы с БД, и имплементировать его в используемую библиотеку (благо много нейронок имеют его в виде Open Source). Варианты не сильно отличаются друг от друга по сложности.
5. "Не хватит оперативки" - это если вы используете алгоритм класса "in memory". Надо искать (или писать нейронку), которая лишена этого недостатка. Такие вопросы можно гууглить по ключевому слову "Streaming algorithm".
5. Если действительно вдруг вы выскочите в область Big Data c необходимостью работы в потоковом режиме(пока вы явно не там) - то придется посмотреть в область Hadoop и Spark. Но это - совсем другая история.
Ответ написан
Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы