Flume создаёт очень много файлов в HDFS. Как заставить его дописывать в файл а не создавать новый?

Question

nickolas_php @nickolas_php

Flume создаёт очень много файлов в HDFS. Как заставить его дописывать в файл а не создавать новый?

Более подробно вопрос и возможные пути решения Я описал тут: bigdata-intips.blogspot.com/2015/11/hdfs-c-pache-k... но суть в том, что новые файлы всё равно создаются. К примеру если n секунд не было никаких событий, то срабатывает параметр idleTimeout, после этого все данные записываются в файл. После возобновления потока данных создаётся уже новый файл рядом а не дозаписывается старый.

Есть ли смысл бороться с этим, ведь очень много маленьких файлов быстро займут пространство имён в NameNode hdfs-a?
Может есть другие способы или подходы к сохранению данных в hdfs? К примеру может сразу записывать данные в Hive?.

Вопрос задан более трёх лет назад
358 просмотров

Комментировать

Подписаться 1 Оценить Комментировать

Помогут разобраться в теме Все курсы

Яндекс Практикум

Специалист по Data Science

13 месяцев

Далее
Яндекс Практикум

Аналитик данных расширенный

12 месяцев

Далее
Яндекс Практикум

Специалист по Data Science плюс

17 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Hadoop

+1 ещё

Средний
Как подключиться к удалённому hdfs из pyspark?
- 1 подписчик
- 03 янв.
- 24 просмотра
0

ответов
DevOps

+2 ещё

Средний
Возможно ли несколько Hadoop на одной машине?
- 1 подписчик
- 11 дек. 2024
- 91 просмотр
0

ответов
Big data

+1 ещё

Средний
Откуда брать наборы данных для наполнения базы?
- 1 подписчик
- 10 дек. 2024
- 124 просмотра
2

ответа
Нейронные сети

+1 ещё

Простой
Кто-нибудь запускал llama 3.1 405b?
- 1 подписчик
- более года назад
- 267 просмотров
1

ответ
Искусственный интеллект

+1 ещё

Средний
Как можно максимально уменьшить размер данных?
- 3 подписчика
- более года назад
- 521 просмотр
1

ответ
Алгоритмы

+1 ещё

Простой
Как крупные веб сервисы хранят массивы данных?
- 1 подписчик
- более года назад
- 150 просмотров
1

ответ
SQL

+1 ещё

Средний
Массив структур в Hive. Как проверить вхождение в массив структуры по маске?
- 1 подписчик
- более года назад
- 233 просмотра
0

ответов
Нейронные сети

+3 ещё

Средний
Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?
- 1 подписчик
- более двух лет назад
- 116 просмотров
2

ответа
Базы данных

+2 ещё

Средний
Может ли Grafana напрямую слать запросы в табличку на hdfs и рисовать временной ряд?
- 1 подписчик
- более двух лет назад
- 111 просмотров
3

ответа
PostgreSQL

+3 ещё

Средний
Какую БД выбрать для хранения и обработки большого кол-ва сообщений?
- 1 подписчик
- более двух лет назад
- 272 просмотра
1

ответ
Показать ещё Загружается…

Тестировщик

Точка Банк

До 330 000 ₽

Data Scientist

Strikt

До 100 000 ₽

Инженер-программист в МТС

Changellenge >> • Москва

от 100 000 до 100 000 ₽

Answer 1 · 2015-11-11 19:56:50

protven @protven

hdfs.rollInterval=0 не пробовали ?

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2015-12-28 19:10:35

Пробывал, но проблема в том, что если поток заканчивается(нет событий) а потом возобновляется к примеру через несколько секунд, то файл всёравно создаётся новый. Разные подходы Я постарался собрать тут: bigdata-intips.blogspot.com/2015/11/hdfs-c-pache-k... . Наиболее адекватным показалось склеивать файлы фоновой задачей. Но это, увы, показалось мне плохим решением. Пока переключился на Spark Streaming откуда сырую информацию пишу в HIVE таблицы а данные, которые нужно получать быстро для realtime аналитики пишу в HBASE. Буду рад услышать Ваши рабочие варианты.

Flume создаёт очень много файлов в HDFS. Как заставить его дописывать в файл а не создавать новый?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт