Как запустить Нейросеть с большими объемами инф?

Question

BestJS @BestJS

Нейронные сети

Как запустить Нейросеть с большими объемами инф?

Сейчас использую готовую нейросеть от разработчика.
Данные для нейросети хранятся в json файле, принципе как и все нейросети которые я встречал.
Уже они весят порядка 2-х гигов... И постоянно они будут увеличиваться в размере.

Что делать если данных у меня на несколько терабайт???
Такой объем будет глупо держать в файле. Ну и оперативки не хватит.

Первое что приходит на ум использовать базу данных. Но тут сразу возникает вопрос как сделать или заставить нейросеть работать с базой данных...? Какую БД использовать?

Подскажите пожалуйста ваши соображения по данному вопросу, что изучать, что смотреть.

Вопрос задан более трёх лет назад
262 просмотра

3 комментария

Подписаться 3 Средний 3 комментария

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Программирование

+1 ещё

Простой
Апгрейда разраба с помощью нейросетки, с чего начать в 2025 году?
- 4 подписчика
- 22 сент.
- 888 просмотров
5

ответов
Нейронные сети

Простой
Отечественные нейронки для кодинга и не только сентябрь 2025?
- 1 подписчик
- 22 сент.
- 186 просмотров
3

ответа
Нейронные сети

Простой
Какая AI модель дешевле в пересчете на решение задачи в программировании?
- 1 подписчик
- 21 сент.
- 242 просмотра
3

ответа
Нейронные сети

Простой
Как настроить оркестрацию вайбкодинга?
- 2 подписчика
- 21 сент.
- 376 просмотров
3

ответа
3D

+2 ещё

Средний
Cуществует ли софт для генерации трёхмерного (если нет — двухмерного) видео говорящего какой-либо заданный текст человека?
- 1 подписчик
- 20 сент.
- 77 просмотров
1

ответ
Python

+1 ещё

Простой
Почему модель обнаружения объектов YOLO работает медленно?
- 1 подписчик
- 14 сент.
- 186 просмотров
1

ответ
Видеокарты

+1 ещё

Средний
Можно ли как-то узнать, какими нодами / сущностями и в каком процентном соотношении занята VRAM в ComfyUI?
- 1 подписчик
- 12 сент.
- 84 просмотра
1

ответ
Нейронные сети

+1 ещё

Простой
С помощью чего проанализировать данные и построить свою нейронную сеть для бана пользователей?
- 1 подписчик
- 09 сент.
- 150 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как повысить macro f1 в задаче классификации изображения?
- 1 подписчик
- 03 сент.
- 53 просмотра
0

ответов
Нейронные сети

Средний
Команда Ollama ps говорит, что модель запущена 100%GPU но загрузка gpu и VRAM на минимуме а ОЗУ — на полную, как такое возможно?
- 1 подписчик
- 29 авг.
- 151 просмотр
1

ответ
Показать ещё Загружается…

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Инженер IP/MPLS, ЦОД

Changellenge >> • Москва

от 100 000 до 100 000 ₽

Разработчик Delphi

EuroAuto • Санкт-Петербург

от 200 000 ₽

Json - не самый лучший формат для хранения больших данных. Ведь он не позволяет читать данные в потоковом режиме, пример за примером; там надо сначала его весь целиком распарсить. Какой-нибудь csv куда лучше подходит.

Answer 1 · 2018-11-05 11:23:15

1. Различие в объеме между 2 ГБ и "несколькими терабайтами" - очень немаленькая. Вы уверены, что терабайтные объемы будут вами достигнуты в обозримом будущем?
2. В фаловой системе NTFS теоретический размер файла может быть до 32 эксабайт. Практически - немного меньше, но думаю, вам должно хватить.
3. Глупо или не глупо держать в файле зависит не от объема информации, а от того, что вы хотите с ней делать. Если просто хранить в нужном формате а потом скармливать своей нейронке, то переход к любой БД вам ничего не даст, кроме замедления работы и УВЕЛИЧЕНИЯ расхода ресурсов.
4. Если вы перейдете к БД, то у вас два пути. Либо перед загрузкой в нейронку переформатировать ваши данные - возможно не все сразу, а по частям - в формат, воспринимаемый нейронкой. Либо писать свой код работы с БД, и имплементировать его в используемую библиотеку (благо много нейронок имеют его в виде Open Source). Варианты не сильно отличаются друг от друга по сложности.
5. "Не хватит оперативки" - это если вы используете алгоритм класса "in memory". Надо искать (или писать нейронку), которая лишена этого недостатка. Такие вопросы можно гууглить по ключевому слову "Streaming algorithm".
5. Если действительно вдруг вы выскочите в область Big Data c необходимостью работы в потоковом режиме(пока вы явно не там) - то придется посмотреть в область Hadoop и Spark. Но это - совсем другая история.

Как запустить Нейросеть с большими объемами инф?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт