Как работать с большим массивом «открытых данных»?
Привет.
Если на аналитику отдают 5-10 гигабайтный xml файл, что обычно с ними делают дата-аналитики? Как-то ж его надо куда-то втянуть, чтоб можно было выборки, запросы делать. А то я сейчас застопорился, у меня на руках 5гигабайтный xml а как по нему фильтровать данные - ума не приложу. Допустим открываю я его на чтение неким просмотрщиком, который не создает кеш и не грузит всё дом-дерево. Но тогда ж нельзя сделать фильтрацию только тех узлов, которые меня интересуют(и внутри этой выборки сделать еще одну выборку). Как это делается? Не верю что каждый придумывает свой велосипед, и в итоге эти xml грузят в реляционную БД и там манипулируют данными. Или так и происходит?