Чем собирать логи?

Question

DizZa @DizZa

Чем собирать логи?

Нужен совет в выборе opensors сборки для сбора и обработки большого объема логов. На данный момент 11 windows серверов с веб-приложениями ASP.NET, 1 сервер в сутки дает порядка 6 гигов логов совокупно (2-3 приложения). Логи пишутся в файлы, файлы ротируются в зависимости от приложения от 100М до 1G на файл.

Система должна легко и прозрачно масштабироваться с минимальным даунаймом или без оного, кол-во серверов будет расти, так же будут добавлены linux сервера.

Логи планируем собирать именно из файлов, прямое перенаправление в систему сбора напрямую планируется, но в неопределенном будущем, поэтому на данный момент не актуально.

Аллерты по логам особо не нужны, заменять систему данной сборкой пытаться не будем. Основное требование, сведение логов по таймингу между машинами и приложениями и последующий отбор по ключам.

Нужен совет по сборке, с обоснованием преимуществ. Например ELK или graylog2, что лучше и почему, какие ускорилки можно использовать, на вроде rabbitrq?

Так же нужен совет по выбору оси и оптимальной конфе с которых можно начать тестирование.

Вопрос задан более трёх лет назад
4443 просмотра

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Инженер по тестированию

8 месяцев

Далее
Яндекс Практикум

DevOps для эксплуатации и разработки

6 месяцев

Далее
Яндекс Практикум

Go-разработчик с нуля

8 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 2

7 комментариев

DizZa @DizZa Автор вопроса

6 гигов один сервер, а их 11 штук и кол-во будет расти и это только web приложения, к ним еще буду добавляться службы на C++ и логи самих серверов.

От сколки гигов памяти надо начинать, что бы провести тестирование, для 6 гигов в день, что бы понять, как потом масштабировать по железу? И какую ОС использовать? Я склоняюсь к deb образным. Какую ось рекомендуют создатели ELK? Знаю, что greylog рекомендуют ubuntu ltc, не хочется выбрать любимую ось, и потом жрать кактус, колоться, но продолжать жрать.

Скрипты на питоне и прочий самопал не надо, надо best practice и главное побольше обоснования и сравнения.

Сведение и поиск это главное, и хочется это делать через веб морду, и тут вопрос, хороша ли кибана, и какие альтернативы того же уровня готовности, желательно с аргументами.

Может быть по анализированному полю быстрее все же? Или я чего то не понимаю?

Написано более трёх лет назад
DizZa @DizZa Автор вопроса

Ускорялки, балансировщики и кластеризацию хочется предусмотреть на этапе проектирования тестов, что бы потом не кусать локти, когда будет 600 гигов в день логов.

Кстати, есть какие то решения по долгосрочному хранению истории логов с возможностью может и более длительной выборки, но все же с возможностью?

Написано более трёх лет назад
Макс @MaxDukov

DizZa: ок, с объемом хранения понятно. емкость дисков можете посчитать сами, для верности умножте на 2 =). и лучше SSD. Что до памяти и количества нод, то тут многое будет зависеть от того что и как будете искать. Если просто поиск "руками" по каким-то полям, без агрегаций/среднего/уникальности и поиска по всему объему разом - то больших проблем не вижу. По моим ощущениям все хорошо пока индекс влезает в HEAP_SIZE. Делайте отдельный индекс по дням, сделайте несколько нод.
что до "аналировать-не анализировать" - то все просто. Это как поиск по LIKE и по =. Если Вас устраивает поиск по "только точному соответствию" - не анализируйте (пример - тип события в логе). Если планируете искать по части строки - анализируйте. Анализаторов, к слову, несколько.

Написано более трёх лет назад
DizZa @DizZa Автор вопроса

Макс: а можно про анализаторы подробнее, с обоснованием и примерами? Logstash вроде как является частью ELK, зачем его менять и на что?

Написано более трёх лет назад
Макс @MaxDukov

DizZa: вот что не расскажут - то не расскажу. Знаю, что анализаторов несколько (https://www.elastic.co/guide/en/elasticsearch/refe..., а вот использовал я только либо дефолтный, либо никакой. Логсташ тут не причем, он только данные парсит(бьет на поля, может установить тип, модифицировать данные и т.д.) и запихивает в эластик.
Что такое "FULL TEXT INDEX" в MySQL представляете себе? Вот анализатор - аналог.

Написано более трёх лет назад
DizZa @DizZa Автор вопроса

Макс: похоже вы не про то - Whitespace Analyzer
The whitespace analyzer divides text into terms whenever it encounters any whitespace character. It does not lowercase terms.

Насколько я понимаю, анализатор, это как раз разбивка. Или я вообще не понимаю тогда.

Написано более трёх лет назад
Макс @MaxDukov

DizZa: ох...
предположим, у Вас есть текстовый лог. к примеру, классика - дата-время-источник-сообщение. разделитель - табуляция. с первыми тремя полями все понятно, это отдельные сущьности, их надо затянуть в отдельные поля. сообщение - штука сложная. там может быть от надписи "ок" до первого тома "Война и мир" (утрирую конечно, но сообщение о ошибке java бывают большими. очень. и многстрочными).
так вот - задача логсташа такую запись (это может быть как 1, так и до-фига-строк) разбить на отдельные дату-время-источник-сообщение и отдать в эластик. Эластик ЭТО возьмет, и в зависимости от настроек как-то сохранит. вот поле "источник", к примеру, логичнее всего хранить как 1 слово, искать по первой букве этого слова вы будете маловероятно. А вот сообщене надо анализировать (считайте - построить индекс по этому полю). и в таком случае Вы потом сможете искать по любой части строки.

подводя итог. совет. Вы планируете ввязаться в непростое дело. у Эластика есть неприятная особенность - если в начале накосячить с индексом (мэппингом, анализаторами), потом исправляется это только переиндексацией. что хлопотно и затратно. Поищите кого-то, кто уже делал подобные вещи и наймите. собрать с вас ваши хотелки и грамотно запустить процесс - дело не самое сложное. сэкономите и время и нервы.

Написано более трёх лет назад

5 комментариев

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Linux

+4 ещё

Простой
Возможно ли получить интернет с openwrt в proxmox?
- 1 подписчик
- 17 окт.
- 217 просмотров
4

ответа
Linux

+2 ещё

Простой
Как настроить Matrix Synapse сервер, чтобы работал клиент Element X (Element подключается)?
- 1 подписчик
- 17 окт.
- 79 просмотров
1

ответ
Linux

Средний
Какой Linux поставить в виртуалку, чтобы поднять на нём OpenVPN клиент и 3proxy сервер для локального использования?
- 4 подписчика
- 15 окт.
- 404 просмотра
4

ответа
Linux

Простой
Как запустить две копии программы в Linux?
- 2 подписчика
- 14 окт.
- 442 просмотра
4

ответа
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт.
- 92 просмотра
0

ответов
Linux

+1 ещё

Простой
Какой самый стабильный и лучший вариант собрать QUIC для curl [cross-compilation]?
- 1 подписчик
- 14 окт.
- 113 просмотров
0

ответов
Linux

+2 ещё

Средний
Существует ли готовое решение или проект для организации Linux-шлюза с маршрутизацией, VPN и DPI-обходом?
- 5 подписчиков
- 13 окт.
- 1129 просмотров
2

ответа
Linux

+1 ещё

Средний
Не вижу трафика клиентов и их онлайн в панели 3x-ui, что можно сделать?
- 2 подписчика
- 13 окт.
- 708 просмотров
2

ответа
Linux

+1 ещё

Простой
Как запретить удаление папки в Linux?
- 1 подписчик
- 13 окт.
- 312 просмотров
3

ответа
Linux

+3 ещё

Средний
FireWall (Linux) для VLESS (Nekoray) и с разными профилями VPN (IP, Port). Как настроить Kill Switch?
- 1 подписчик
- 11 окт.
- 365 просмотров
3

ответа
Показать ещё Загружается…

Ведущий инженер-проектировщик линий электропередачи (ЛЭП)

ЭЛСИ Энергопроект • Новосибирск

от 121 000 ₽

Специалист первой линии технической поддержки

Петрович-Тех

До 52 882 ₽

Системный администратор Linux

Abc staff • Москва

До 250 000 ₽

Answer 1 · 2016-11-29 23:23:39

как человек, сталкивавшийся с ELK
6Г в день - не страшно для ELK. Но готовьтесь к прожорливости по памяти. Всеж Java...
легкость масштабирования - в принципе да. Добавить ноду в кластер - дело минут. Синхронизация, правда, займет время. Но это везде так, данные "по волшебству" с ноды на ноду не перелетят.
собирать из файлов - тоже без особых проблем. есть как Beats, так и Logstash - оба идеологически верные, от самого эластика. Да и альтернатив немало. Вплоть до скрипта на питоне - впихивание в эластик дело не сложное.
сведение и поиск - в полный рост. быстрые диски(а лучше SSD) + обилие памяти и все будет летать.
ускорялки - при Ваших 4-5 мб в минуту ускорялки врядли понадобятся.
а вот о чем стоит подумать заранее - это что с какими полями вы собираетесь делать. А то сохранят размер файла как строку - а потом переживают, что поиск по меньше больше не работает. И про анализировать\не анализировать стоит подумать. Поиск по неанализированному полю ощутимо менне прожорлив - а значит быстрее

Answer 2 · 2016-11-30 11:08:32

Вам без брокера сообщений нельзя. С растущими объемами рано или поздно "упадете на нос".

https://kafka.apache.org/ подходит для Ваших задач, как ничто лучше. И по объемам и по перформасу.

Здесь описан основной сценарий:
https://www.elastic.co/blog/just-enough-kafka-for-...

Если Вы хотите создать, что-то типа архива логов. То в данной схеме это лишь ещё один consumer.

Чем собирать логи?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт