Где хранить сырые данные из внешних источников?

Question

Anton @iskinn

database administrator

Где хранить сырые данные из внешних источников?

Нужно собирать и хранить сырые данные из внешних источников. Данные такие: выгрузка из api яндекс-метрики, гугл-аналитика, еще несколько похожих источников. Эти данные нужно собирать и хранить пока работает компания, чтобы из них делать выборки для аналитиков, заливать в OLAP ClickHouse хранилище нужные данные, обрабатывать их и показывать в PowerBI. Объем данных маленький: в день примерно 10-15т строк по-каждому источнику. За 3 года примерно 40Гб. Соответственно, продукты hadoop здесь не подходят, не тот объем.

Сам думал куда можно загружать, варианты: csv файлы за каждый день - не удобны для дальнейшего использования, если нужно поисследовать накопленное, сделать запросы, что то поискать; mongodb - почему то многие боятся ее использовать, еще варианты cassandra, elasticsearch, clickhouse. Облачные сервисы пока, что в компании не используются.

Для меня важно, чтобы это хранилище было надежным, была возможность иногда делать запросы на поиск. Опыта в хранении пока что очень мало. Подскажите, что лучше подходит для такой задачи.

Всем заранее спасибо за ответы.

Вопрос задан более трёх лет назад
415 просмотров

1 комментарий

Подписаться 2 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

DevOps-инженер с нуля

15 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия: Python-разработчик + ИИ

8 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ответы на вопрос 1

8 комментариев

Anton @iskinn Автор вопроса

к сожалению облачная инфраструктура у нас не используется на текущий день. спасибо за ответ

Написано более трёх лет назад
Иван Шумов @inoise

Anton, вы говорите про OLAP. Если у вас он то либо у вас в компании есть инструменты под названием BI Tools м вам должны отдать требования, либо это не ваша задача. Если у вас нет требований то это хорошая причина залезть в облака - это не так дорого как люди думают

Написано более трёх лет назад
Anton @iskinn Автор вопроса

По задумке планируем из сырого хранилища класть в ClickHouse и из него показывать отчеты PowerBI(уже используется в компании).

Написано более трёх лет назад
Иван Шумов @inoise

Anton, ну так вы уже решили все. В чем проблема?)

Написано более трёх лет назад
Anton @iskinn Автор вопроса

не понятно куда класть сырые данные из внешних источников. класть сразу в ClickHouse неправильно, превратится в помойку. Из всех сырых данных на текущий день нужно 25-30% колонок. В перспективе понадобится больше, поэтому в сыром виде нужно хранить их пожизненно.

Написано более трёх лет назад
Иван Шумов @inoise

Anton, кликхауз изначально создан как помойка. Это его основное использование - структурированная информация не для него

Написано более трёх лет назад
Максим Мосейчук @fshp

Anton, в пострес последних версий есть поддержка json и выборки по нему.

Написано более трёх лет назад
Иван Шумов @inoise

Максим Мосейчук, это есть уже везде)

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Базы данных

+1 ещё

Средний
Есть ли у вас Oracle Application Server 10g?
- 2 подписчика
- 10 июл.
- 219 просмотров
1

ответ
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 108 просмотров
2

ответа
Веб-разработка

+4 ещё

Простой
Как хранить публичный медиа-контент сайта?
- 1 подписчик
- 03 июл.
- 235 просмотров
3

ответа
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 932 просмотра
6

ответов
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 315 просмотров
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 406 просмотров
3

ответа
Базы данных

Средний
В чем разница между логической и физической модели в БД?
- 1 подписчик
- 27 мая
- 303 просмотра
3

ответа
Веб-разработка

+1 ещё

Простой
Где можно хранить данные пользователя для синхронизации?
- 1 подписчик
- 19 мая
- 340 просмотров
5

ответов
Хранение данных

Простой
Как открыть образ диска VHD?
- 1 подписчик
- 29 апр.
- 151 просмотр
1

ответ
Резервное копирование

+1 ещё

Простой
Как лучше подключать СХД к Proxmox Backup?
- 3 подписчика
- 22 апр.
- 361 просмотр
2

ответа
Показать ещё Загружается…

почему то многие боятся ее использовать
потому что толку от нее нет
Ни запросы обработать, ни хранить в 3NF она не умеет

Answer 1 · 2019-05-21 22:17:07

в Кликхаус и храните

там же и скопировать можно, и по партитициям, сам сжимает - зачем изобретать?

Answer 2 · 2019-05-21 17:36:11

Храните в виде json файлов в AWS s3 и используйте для OLAP - AWS Athena. Место почти не занимает, SQL всеми любимый будет, работает достаточно шустро и Serverless, что значит что оплата только за то что используется

Где хранить сырые данные из внешних источников?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт