Нужно собирать и хранить сырые данные из внешних источников. Данные такие: выгрузка из api яндекс-метрики, гугл-аналитика, еще несколько похожих источников. Эти данные нужно собирать и хранить пока работает компания, чтобы из них делать выборки для аналитиков, заливать в OLAP ClickHouse хранилище нужные данные, обрабатывать их и показывать в PowerBI. Объем данных маленький: в день примерно 10-15т строк по-каждому источнику. За 3 года примерно 40Гб. Соответственно, продукты hadoop здесь не подходят, не тот объем.
Сам думал куда можно загружать, варианты: csv файлы за каждый день - не удобны для дальнейшего использования, если нужно поисследовать накопленное, сделать запросы, что то поискать; mongodb - почему то многие боятся ее использовать, еще варианты cassandra, elasticsearch, clickhouse. Облачные сервисы пока, что в компании не используются.
Для меня важно, чтобы это хранилище было надежным, была возможность иногда делать запросы на поиск. Опыта в хранении пока что очень мало. Подскажите, что лучше подходит для такой задачи.
Храните в виде json файлов в AWS s3 и используйте для OLAP - AWS Athena. Место почти не занимает, SQL всеми любимый будет, работает достаточно шустро и Serverless, что значит что оплата только за то что используется
Anton, вы говорите про OLAP. Если у вас он то либо у вас в компании есть инструменты под названием BI Tools м вам должны отдать требования, либо это не ваша задача. Если у вас нет требований то это хорошая причина залезть в облака - это не так дорого как люди думают
не понятно куда класть сырые данные из внешних источников. класть сразу в ClickHouse неправильно, превратится в помойку. Из всех сырых данных на текущий день нужно 25-30% колонок. В перспективе понадобится больше, поэтому в сыром виде нужно хранить их пожизненно.