Пробывал, но проблема в том, что если поток заканчивается(нет событий) а потом возобновляется к примеру через несколько секунд, то файл всёравно создаётся новый. Разные подходы Я постарался собрать тут:
bigdata-intips.blogspot.com/2015/11/hdfs-c-pache-k... . Наиболее адекватным показалось склеивать файлы фоновой задачей. Но это, увы, показалось мне плохим решением. Пока переключился на Spark Streaming откуда сырую информацию пишу в HIVE таблицы а данные, которые нужно получать быстро для realtime аналитики пишу в HBASE. Буду рад услышать Ваши рабочие варианты.