Достаточно ли возможностей/диалекта базы данных HIVE для Tableau или для этого гораздо лучше подойдёт Cloudera Impala?
Планируем поднять кластер Hadoop, ложить туда данные активности проекта с последующей realtime(или около того) визаулизацией основных показателей продукта.
Достаточно ли возможностей/диалекта базы данных HIVE для аналитики с использованием инструмента Tableau или для этого гораздо лучше подойдёт Cloudera Impala?
Impala общещает полноценный SQL диалект на больших объёмах данных, но при этом очень требовательна к оперативной памяти. Стоит ли инвестировать в оборудование доп. средства или это не стоит того(Недостаточно быстрые выборки, очень нестабильна и т.д.) и лучше перелаживать данные с HDFS в Hive, HBase PostgreSQL и т.д. в уже ужатом виде?
Пока получил такой ответ с других источников:
Impala в несколько раз быстрее, но все вкусности работы с ней ограничены в бесплатной версии, поэтому выбор HIVE все же имеет свой смысл.
По поводу realtime, ни HBASE ни Impala не дадут real time скорости by design (у них map reduce под капотом). Зато realtime скорости может гарантировать HBASE и Spark Streaming, либо если уже подготовленные data marts складывать и раздавать из Postgress.