Задать вопрос
  • Как сделать отчеты по следующему JSON-у?

    @nickolas_php
    Привет! Может Я несовсем понял идею, но раз уже написаны примеры на mapReduce то может тебе стоит посмотреть в сторону создание отчётов на основе поискового движка Apache Solr? На выходе ты получишь гибкость перестроения отчётов под новые требования + near-realtime + маштабируемость. Идея там такая: Ты загружаешь данные в Solr и с помощью поисковых и аналитических запросов(компоненты facet & stats) делаешь необходимые агрегации. Вот видео с примером построения аналитических отчётов https://www.youtube.com/watch?v=JtbEDef_p9U Сами отчёты ты можешь строить прям в Banana или Kibana на которых как раз делают дашборды для визуализации отчётов см. https://www.youtube.com/watch?v=cqV5lPM2VVE и https://www.youtube.com/watch?v=ddgtvv4W8EM . Я бы выбрал Banana как dasboard builder так как он намного гибче и более адаптирован под Apache Solr. Я же реализовывал аналитику с помощью Solr ещё и с прослойкой HBase. Cуть в том, что если тебе нужно изменять данные, которые уже раз пришли, то лучше для обновлений использовать key-value storage а далее у меня настроен livy-hbase indexer, который порциями обновляет данные в Solr. Вот ссылка с более подробной информацией: bigdata-intips.blogspot.com/2016/06/real-time-apac...
    Ответ написан
    Комментировать
  • Почему не создается таблица через Hive UI?

    @nickolas_php
    Похоже, что нет прав на запись именно файла в файловой системе hdfs . Права доступа в hdfs настраиваются отдельной командой(смотрите в сторону hadoop fs -chmod...). Ещё попробуйте создать пользователя hdfs для админки hue и зайти под ним. Да, это выглядит странно, но кажись там проблема в том, что в системе нет пользователя hue вообще а так вы логинитесь под существующим пользователем(Пользователь hdfs является дефолтным для hdfs хранилища).
    Советую, при попытке создания таблицы, смотреть в различные логи в директории /var/log/* Да, файлов там много... но всегда можно наткнутся на нужный лог посредством интуиции (ищем в директориях /var/log/hue, /var/log/hadoop-hdfs, etc... ) и прямого перебора файлов в этих директориях. Для себя Я выбрал сборку от cloudera - вполне адекватное решение в котором все компоненты(hive, spark streaming, hdfs, hue ..etc.) реализованы как единое целое.
    Ответ написан
    Комментировать
  • Flume создаёт очень много файлов в HDFS. Как заставить его дописывать в файл а не создавать новый?

    @nickolas_php Автор вопроса
    Пробывал, но проблема в том, что если поток заканчивается(нет событий) а потом возобновляется к примеру через несколько секунд, то файл всёравно создаётся новый. Разные подходы Я постарался собрать тут: bigdata-intips.blogspot.com/2015/11/hdfs-c-pache-k... . Наиболее адекватным показалось склеивать файлы фоновой задачей. Но это, увы, показалось мне плохим решением. Пока переключился на Spark Streaming откуда сырую информацию пишу в HIVE таблицы а данные, которые нужно получать быстро для realtime аналитики пишу в HBASE. Буду рад услышать Ваши рабочие варианты.
    Ответ написан
    Комментировать
  • Достаточно ли возможностей/диалекта базы данных HIVE для Tableau или для этого гораздо лучше подойдёт Cloudera Impala?

    @nickolas_php Автор вопроса
    Пока получил такой ответ с других источников:
    Impala в несколько раз быстрее, но все вкусности работы с ней ограничены в бесплатной версии, поэтому выбор HIVE все же имеет свой смысл.

    По поводу realtime, ни HBASE ни Impala не дадут real time скорости by design (у них map reduce под капотом). Зато realtime скорости может гарантировать HBASE и Spark Streaming, либо если уже подготовленные data marts складывать и раздавать из Postgress.
    Ответ написан
    Комментировать
  • php.net — Contains Malware!? Или что случилось с php.net?

    @nickolas_php Автор вопроса
    Говорят, что сегодня производительность php-разработчика снизиться минимум на 30% o_O, а в некоторых случаях и вовсе парализует работу!!!)
    Ответ написан
    2 комментария
  • php.net — Contains Malware!? Или что случилось с php.net?

    @nickolas_php Автор вопроса
    И firefox туда же :( «Firefox uses Google's blacklist to warn you about „Reported attack sites.“»
    Ответ написан
    Комментировать
  • php.net — Contains Malware!? Или что случилось с php.net?

    @nickolas_php Автор вопроса
    Комментировать