Ответы пользователя по тегу Hadoop
  • Почему не создается таблица через Hive UI?

    @nickolas_php
    Похоже, что нет прав на запись именно файла в файловой системе hdfs . Права доступа в hdfs настраиваются отдельной командой(смотрите в сторону hadoop fs -chmod...). Ещё попробуйте создать пользователя hdfs для админки hue и зайти под ним. Да, это выглядит странно, но кажись там проблема в том, что в системе нет пользователя hue вообще а так вы логинитесь под существующим пользователем(Пользователь hdfs является дефолтным для hdfs хранилища).
    Советую, при попытке создания таблицы, смотреть в различные логи в директории /var/log/* Да, файлов там много... но всегда можно наткнутся на нужный лог посредством интуиции (ищем в директориях /var/log/hue, /var/log/hadoop-hdfs, etc... ) и прямого перебора файлов в этих директориях. Для себя Я выбрал сборку от cloudera - вполне адекватное решение в котором все компоненты(hive, spark streaming, hdfs, hue ..etc.) реализованы как единое целое.
    Ответ написан
    Комментировать
  • Flume создаёт очень много файлов в HDFS. Как заставить его дописывать в файл а не создавать новый?

    @nickolas_php Автор вопроса
    Пробывал, но проблема в том, что если поток заканчивается(нет событий) а потом возобновляется к примеру через несколько секунд, то файл всёравно создаётся новый. Разные подходы Я постарался собрать тут: bigdata-intips.blogspot.com/2015/11/hdfs-c-pache-k... . Наиболее адекватным показалось склеивать файлы фоновой задачей. Но это, увы, показалось мне плохим решением. Пока переключился на Spark Streaming откуда сырую информацию пишу в HIVE таблицы а данные, которые нужно получать быстро для realtime аналитики пишу в HBASE. Буду рад услышать Ваши рабочие варианты.
    Ответ написан
    Комментировать
  • Достаточно ли возможностей/диалекта базы данных HIVE для Tableau или для этого гораздо лучше подойдёт Cloudera Impala?

    @nickolas_php Автор вопроса
    Пока получил такой ответ с других источников:
    Impala в несколько раз быстрее, но все вкусности работы с ней ограничены в бесплатной версии, поэтому выбор HIVE все же имеет свой смысл.

    По поводу realtime, ни HBASE ни Impala не дадут real time скорости by design (у них map reduce под капотом). Зато realtime скорости может гарантировать HBASE и Spark Streaming, либо если уже подготовленные data marts складывать и раздавать из Postgress.
    Ответ написан
    Комментировать