Задать вопрос

lukoie

lukoie @lukoie

аналитика

Аналитика

Как работать с большим массивом «открытых данных»?

Привет.
Если на аналитику отдают 5-10 гигабайтный xml файл, что обычно с ними делают дата-аналитики? Как-то ж его надо куда-то втянуть, чтоб можно было выборки, запросы делать. А то я сейчас застопорился, у меня на руках 5гигабайтный xml а как по нему фильтровать данные - ума не приложу. Допустим открываю я его на чтение неким просмотрщиком, который не создает кеш и не грузит всё дом-дерево. Но тогда ж нельзя сделать фильтрацию только тех узлов, которые меня интересуют(и внутри этой выборки сделать еще одну выборку). Как это делается? Не верю что каждый придумывает свой велосипед, и в итоге эти xml грузят в реляционную БД и там манипулируют данными. Или так и происходит?

Вопрос задан более трёх лет назад
60 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Помогут разобраться в теме Все курсы

Нетология

Аналитик данных: расширенный курс

11 месяцев

Далее
Skillbox

Нейросети: практический курс

3 месяца

Далее
ProductStar

Профессия Аналитик данных

12 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

Александр Скуснов @AlexSku

не буду отвечать из-за модератора

В MatLab есть такой тип данных Tall Array.
https://www.mathworks.com/solutions/big-data-matla...

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Excel

+1 ещё

Средний
PowerQuery эффективность применения при работе с большим к-вом файлов?
- 2 подписчика
- вчера
- 44 просмотра
1

ответ
Хранение данных

+1 ещё

Сложный
Как сделать Service Structure рабочими в Tempo?
- 1 подписчик
- 06 нояб.
- 49 просмотров
0

ответов
Аналитика

Простой
Где посмотреть примеры оформления кода для экономического анализа данных?
- 1 подписчик
- 11 сент.
- 242 просмотра
2

ответа
Аналитика

+1 ещё

Простой
Какие есть эффективные средства анализа больших данных?
- 2 подписчика
- 20 авг.
- 207 просмотров
3

ответа
Алгоритмы

+1 ещё

Средний
Как можно предиктить дату регистрации при массиве данных?
- 1 подписчик
- 03 июл.
- 182 просмотра
1

ответ
Аналитика

+1 ещё

Средний
Как быстро локализовать в логах источник изменений метрики?
- 1 подписчик
- 30 июн.
- 105 просмотров
0

ответов
Математика

+3 ещё

Средний
Как выбрать размеры интервалов для неравно интервального вариационного ряда?
- 1 подписчик
- 24 июн.
- 185 просмотров
2

ответа
Аналитика

Простой
Какие сейчас используются качественные программы для pairwise?
- 2 подписчика
- 04 мая
- 67 просмотров
2

ответа
Аналитика

+1 ещё

Простой
Если ли более изящный способ вычисления суммы максимальных значений за день в ретроспективе 1 месяц?
- 5 подписчиков
- 21 мар.
- 2258 просмотров
2

ответа
Аналитика

+1 ещё

Средний
Как построить объясняющую модель временного ряда?
- 2 подписчика
- 08 февр.
- 182 просмотра
0

ответов
Показать ещё Загружается…

Руководитель отдела поддержки программного обеспечения

Эконика • Москва

от 170 000 до 170 000 ₽

Системный аналитик

Zampa

от 200 000 до 300 000 ₽

Стажер Аналитик

ПСБ цифровая лаборатория • Москва

от 30 000 до 60 000 ₽