Какие есть эффективные средства анализа больших данных?

Question

glu-dimaz @glu-dimaz

Какие есть эффективные средства анализа больших данных?

Требуется проводить анализы объемных .json файлов. Искать оптимальные значения по критериям, выводить средние и т.д. - наверное нейронка. GPT, deepseek, gigachat, yandex gpt - нет, они не читают объемные файлы даже в платных версиях из за ограничений использования серверных ресурсов.

Вопрос задан 20 авг.
206 просмотров

1 комментарий

Подписаться 2 Простой 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее
Skillbox

Нейросети: практический курс

3 месяца

Далее
ProductStar

Профессия Аналитик данных

12 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 2

4 комментария

glu-dimaz @glu-dimaz Автор вопроса

Вы вообще тут? Тут люди далеко не глупые - чтобы знать базу и логику работы БД. Речь идет не о извлечении данных. А о конкретном анализе данных. Кучи данных. Большой кучи данных. Большой кучи данных. А не сделать выборку, найти среднее и так далее...

Написано 21 авг.
VoidVolker @VoidVolker

glu-dimaz, конечно тут. Для того, чтобы анализировать данные - их для начала надо куда-то сложить. И эту задачу решает БД. И для разных видов данных и их анализа подходят разные БД. А вот средства анализа уже подключаются к БД и извлекают их оттуда, проводят какие-то вычисления и туда же или куда-то ещё сохраняют вычисленный результат. Так что, таки речь тут идёт об извлечении данных.

А о конкретном анализе данных.

Где он конкретный?

Искать оптимальные значения по критериям, выводить средние

Вот этот? У вас на текущий момент пока только некий абстрактный анализ.

Кучи данных. Большой кучи данных.

Кучи разные бывают. Ваша куча на текущий момент - абстрактная.

А не сделать выборку, найти среднее и так далее...

Вот же ваша цитата:

оптимальные значения по критериям, выводить средние и т.д.

Может вы всё же определитесь, что именно вам надо?

Написано 21 авг.
glu-dimaz @glu-dimaz Автор вопроса

Для того, чтобы анализировать данные - их для начала надо куда-то сложить. И эту задачу решает БД

А зачача это стоит? Дальше чтением вашей логической цепочки и попыткам предраться к воопросу - заниматься не буду. Вопрос стоял - ннейроная связь для работы с большим объемом данных. К примеру. .json объект - массив (от 180 элементов), в каждом из которов 6-10 ключей с параметрами: цвет, категория, оценка, пробег и тт.д. и т.п. До вас уже было сказано выше - что нейронки не работают с большим объемом данных как полоржено. И человек там все прекрасно понял, о чем идет речь и дал вполне себе объективный ответ. Ваш ответ - не понятно как связан с изначальным запросом.

Написано 26 авг.
VoidVolker @VoidVolker

glu-dimaz,

Вопрос стоял - ннейроная связь для работы с большим объемом данных.

Вот ваш вопрос:

Какие есть эффективные средства анализа больших данных?

Требуется проводить анализы объемных .json файлов. Искать оптимальные значения по критериям, выводить средние и т.д.

Дальше уже у вас идёт проблема XY и ваши предположения и фантазии. Ничего более конкретного вы не сказали. Все уточняющие вопросы вы проигнорировали.

К примеру. .json объект - массив (от 180 элементов), в каждом из которов 6-10 ключей с параметрами: цвет, категория, оценка, пробег и тт.д. и т.п.

Воот, уже что-то более конкретное. С данной задачей легко справится БД. Но этого всё равно мало для понимания вашей цели, которую вы так и не озвучили.

Ваш ответ - не понятно как связан с изначальным запросом.

Общий вопрос - общий ответ. В общем случае делается именно так - данные заливаются в специализированную БД с оптимальной структурой, а потом уже с ними работают.

нейронки не работают с большим объемом данных как полоржено

Вполне себе работают. И этот процесс называется "обучением", а вот уже потом - составление запросов на естественном языке с получением ответа на нём же с существенной степенью рандома.

Написано 26 авг.

1 комментарий

Tema Ovchinnnikov @3DVCache

Интересно если возникнет такая ситуация может это помочь? С большими данными ещё не работал так на будущее узнать)

Текст ниже сгенерирована с помощью языковой модели, разработанной Googl
Стратегии для обработки больших JSON-файлов

Потоковый (стриминговый) анализ
Использование специализированных библиотек
Изменение структуры данных (если возможно)
Параллельная и распределенная обработка
Пакетная обработка в binary
Распараллеливание запуска функций
Контроль за форматом вывода

Apache Spark
Pandas с итеративным чтением (Python)
Инструменты командной строки: базовые утилиты, такие как grep, awk, sed, в сочетании со специализированными инструментами вроде jq
BI-инструменты

Оцените размер: Если файл "большой", но помещается в память вашего компьютера, стандартный парсер подойдет. Если нет, переходите к потоковым методам.

Используйте потоковый парсер: Начните с ijson в Python для эффективного извлечения данных.

Нормализуйте данные: После извлечения данных из JSON их часто нормализуют и сохраняют в более эффективный формат (например, CSV, Parquet) для дальнейшего анализа.

Применяйте распределенные системы: Если данные исчисляются терабайтами, потребуется использовать Apache Spark или аналогичные платформы.

Написано 05 нояб.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Искусственный интеллект

Простой
Как сделать синхронный перевод с английского на русский, локально?
- 3 подписчика
- 06 дек.
- 223 просмотра
1

ответ
Искусственный интеллект

Простой
Сравнение стилей двух разных текстов: один или разные люди их писали или вообще ИИ?
- 2 подписчика
- 05 дек.
- 167 просмотров
1

ответ
Программное обеспечение и интернет-сервисы

+1 ещё

Простой
Какую нейронку с API (чтоб оплата принималась в рублях) выбрать?
- 3 подписчика
- 22 нояб.
- 402 просмотра
3

ответа
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 49 просмотров
0

ответов
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 494 просмотра
4

ответа
Google

+1 ещё

Простой
Бесплатная альтернатива Gemini 2.0 Flash preview image generation?
- 3 подписчика
- 28 окт.
- 249 просмотров
2

ответа
Железо

+3 ещё

Простой
Какие есть готовые умные очки, которые можно прошить?
- 2 подписчика
- 15 окт.
- 360 просмотров
1

ответ
Python

+1 ещё

Простой
Какие есть простые легковесные LLM для локального использования?
- 3 подписчика
- 14 окт.
- 773 просмотра
4

ответа
Видеокарты

+1 ещё

Простой
Выбрать ли RTX 3060 12 Гб или RTX 5060 8 Гб для бюджетного AI?
- 2 подписчика
- 01 окт.
- 738 просмотров
4

ответа
Искусственный интеллект

Сложный
Stable Diffusion генерит, а по итогу картинки нет, не показывает?
- 1 подписчик
- 29 сент.
- 108 просмотров
0

ответов
Показать ещё Загружается…

Руководитель отдела поддержки программного обеспечения

Эконика • Москва

от 170 000 до 170 000 ₽

Системный аналитик

Zampa

от 200 000 до 300 000 ₽

Стажер Аналитик

ПСБ цифровая лаборатория • Москва

от 30 000 до 60 000 ₽

Утоните, пожалуйста:
1) "большие файлы" - это какие порядки в [кило/мега/гига]байтах?
2) Порядки количества этих файлов? (десятки/сотни/мильёны)?

Answer 1 · 2025-08-20 05:33:15

gpt ИИ тут никаким боком, абсолютно, даже вреден.
Эффективный размер контекстного окна топовых ии - 32к токенов (тех кто стоит баксы а не десятые цента за 'диалог'), ну а обычно это 8к токенов (даже если размер контекстного окна заявлен в сотни тысяч или миллион), и даже в этом пределе точность работы 80-90%, т.е. 20% информации может быть потеряна или искажена, что совершенно не подходит для аналитики.
https://github.com/mnismt/llms-long-context-benchm...
https://fiction.live/stories/Fiction-liveBench-Feb...

В лучшем случае ИИ может работать прослойкой между общим человеческим языком и специализированным типа sql. Но даже тут создавать такую систему и главное ее тестировать, нереально сложно. Возможно, при неадекватно высоких затратах денег, программирующие агенты смогут проанализировать данные и написать готовый код для работы с ними.

json нужно читать просто какими либо библиотеками в любимом языке программирования, при очень больших данных (не влезающих в оперативную память) можно подумать о конвертации данных в реляционные базы данных (то что озвучено в вопросе подойдет) или какие либо иные, лучше подходящие под тип аналитики.

Answer 2 · 2025-08-20 12:08:30

То, что вам надо называется "База Данных". Их есть целая куча под разные задачи - составляете список ваших задач, требований к БД и подбираете соответствующую вашим задачам БД и средства работы с ней. Далее пишите скрипт/приложение для загрузки в БД ваших данных и затем используя средства работы с БД делаете нужные вам запросы и выводите в удобном вам виде. Например делаете запрос на специализированном языке запросов SQL и выводите результат в какой-нибудь графане.

Answer 3 · 2025-08-28 13:44:28

Присоединюсь к коллегам.
1) Кладёте ваш json в любую БД, попутно очищая его от служебных символов (типа (), {} и тд). Делаете любым инструментом для ETL, которым умеете пользоваться (или изучаете)
Судя по комментариям в соседних ветках (про оценку, пробег и тд), это у вас типовые выгрузки по API (или парсинг) — тут хоть в csv трансформируйте, может и вам и БД-то не нужна, а достаточно плоской большой таблицы (только всё равно плоскую таблицу лучше держать в csv, а не xlsx, меньше тормозов на больших массивах, ну или велкам разворачивать любой движок БД, какой нра)

2) Далее любимым инструментом для BI аналитики строите сводные таблицы, графики, диаграммы, находите ваши средние и корреляции.

ИИ, как инструмент, вам поможет создать модель данных, настроить ETL, ответить на вопросы, как получить нужный вам срез / сводную / диаграмму / etc, и для всего этого в ИИ достаточно закинуть массивы исходных данных строк в 20, а не весь массив.

Какие есть эффективные средства анализа больших данных?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт