Как парсить большие(>25GB) файлы(логи активности) и ранжировать полученную информацию, какие технологии лучше использовать?

Question

bakomchik @bakomchik

Как парсить большие(>25GB) файлы(логи активности) и ранжировать полученную информацию, какие технологии лучше использовать?

Здравствуйте, коллеги.
Появилась необходимость парсить большие файлы логов(>25гб), определенным образом ранжировать и преставлять конечному пользователю UI для анализа этих ранжированных данных.
Такие задачи никогда не решал , не знаю что лучше использовать для этого(Hadoop,elasticsearch, mongo)
кручусь в эко-системе java.
Прошу совета от опытных коллег!

Вопрос задан более трёх лет назад
1694 просмотра

1 комментарий

Подписаться 5 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Яндекс Практикум

Java-разработчик

10 месяцев

Далее
Skillfactory

Профессия Java-разработчик

14 месяцев

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 5

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Java

+1 ещё

Простой
Лучшие практики реализации Java Delegate в Camunda: Spring Bean vs прямое создание класса?
- 1 подписчик
- час назад
- 8 просмотров
0

ответов
Java

Средний
Почему крашится сервер Minecraft Forge?
- 1 подписчик
- 13 окт.
- 85 просмотров
1

ответ
Java

+1 ещё

Простой
Как создать аннотацию, подобную Jakarta @Size?
- 2 подписчика
- 09 окт.
- 117 просмотров
0

ответов
Java

Простой
Почему способ создания String влияет на результат сравнения?
- 2 подписчика
- 27 сент.
- 237 просмотров
3

ответа
Java

+2 ещё

Простой
Какие есть варианты grpc service discovery с минимальным откликом?
- 1 подписчик
- 17 сент.
- 102 просмотра
0

ответов
Java

+1 ещё

Средний
Hibernate: Почему запрос с EntityGraph не работает?
- 1 подписчик
- 10 сент.
- 87 просмотров
0

ответов
Java

+1 ещё

Простой
Java. Трудности в начинании, нормальные ли ошибки в начале?
- 1 подписчик
- 10 сент.
- 355 просмотров
3

ответа
Java

Простой
Как эффективно реализовать балансировку очереди запросов на Java?
- 1 подписчик
- 03 сент.
- 192 просмотра
1

ответ
Java

Простой
Как работает ForkJoinPool.ManagedBlocker?
- 1 подписчик
- 25 авг.
- 115 просмотров
0

ответов
Java

Средний
Я создаю сервер майнкрафт на forge с модами, но возникает проблема, с чем это может быть связано и как это решить?
- 3 подписчика
- 12 авг.
- 2777 просмотров
3

ответа
Показать ещё Загружается…

Automation QA Engineer (Java)

ITK academy • Москва

от 90 000 ₽

Инженер по ручному тестированию

Hello, Doc!

от 80 000 ₽

Лид нагрузочного тестирования

ИНГО БАНК • Москва

До 400 000 ₽

25 ГБ -- это разве Big Data? Вы на порядок ошиблись.

Answer 1 · 2015-07-03 22:02:45

Как парсить

Как обычно - читаем и разбираем. Размер тут большого значения не играет.

Если вы собираетесь предоставлять конечному пользователю UI для анализа этих ранжированных данных, то надо в процессе парсинга переносить данные в БД.
Выбор конкретной БД зависит от многих факторов, в частности от того что за данные, как они связаны, и какие выборки нужны будут.

Answer 2 · 2015-07-03 23:12:11

www.datacenterknowledge.com/archives/2012/03/08/th...
пока у тебя нет потока таких логов, не надо хранить и обрабатывать историю за 10+ лет - у тебя нифига не бигдата

не знаю что лучше использовать для этого

не знаешь что использовать под бд - используй postgres

Читай построчно и запихивай в БД в нормализированном состоянии
Изучи хаки для буста производительности БД - temp table, disable indexes, etc

Hadoop нужен если им будут пользоваться те кто в нем шарит. Твои пользователи будут переподнимать кластер после того как он навернется из-за того что софт сырой поставили?

Answer 3 · 2015-07-03 23:36:04

Ivan Velichko @iximiuz

Вот ответ на ваш вопрос. Основная идея:
файл лога -> парсер -> logstash -> elastic search -> kibana

Ответ написан более трёх лет назад

Комментировать

Answer 4 · 2015-07-03 22:41:13

Влад Животнев @inkvizitor68sl

Linux-сисадмин с 8 летним стажем.

Если SQL-like разберете - то hadoop+hive.

Ответ написан более трёх лет назад

Комментировать

Answer 5 · 2015-07-04 11:22:13

да всё верно, читаем -> обрабатываем.
но большинство алгоритмов классических, которые мы обычно используем для обработки данных (например сортировки) имеют класс "оффлайн" алгоритмов -> где для получения ответа нужно сразу все данные предоставить, чего иногда сделать просто не возможно.
посмотрите класс онлайн алгоритмов, и потоковой обработки данных.
например тут www.cs.dartmouth.edu/~ac/Teach/CS85-Fall09/Notes/l...
ну либо попытаться использовать потоковые фреймворки типа spark.
для обработки логов конечно проще и быстрее написать свои алгоритмы, чем spark колхозить.

Как парсить большие(>25GB) файлы(логи активности) и ранжировать полученную информацию, какие технологии лучше использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт