Как склеить строки в logstash идущие не по порядку?

Question

zdravnik @zdravnik

Как склеить строки в logstash идущие не по порядку?

Есть логи ммногострочные postgresql следующего вида:

Jul 22 17:03:27 my.host example.com[24977]: [137-1] 2016-07-22 17:03:27.339 MSK User: username Database: my_db Host: 192.168.0.52(38494) Proc ID: 24977 etc1
Jul 22 17:03:27 my.host example.com[24977]: [137-2] 2016-07-22 17:03:27.339 MSK User: username Database: my_db Host: 192.168.0.52(38494) Proc ID: 24977 etc2
Jul 22 17:03:27 my.host example.com[24597]: [2953-1] 2016-07-22 17:03:27.339 MSK User: username Database: my_db Host: 192.168.0.52(38053) Proc ID: 24597 etc
Jul 22 17:03:27 my.host example.com[3637]: [3779-1] 2016-07-22 17:03:27.340 MSK User: username Database: my_db Host: 192.168.0.52(17809) Proc ID: 3637 etc
Jul 22 17:03:27 my.host example.com[24977]: [138-1] 2016-07-22 17:03:27.339 MSK User: username Database: my_db Host: 192.168.0.52(38494) Proc ID: 24977 etc1
Jul 22 17:03:27 my.host example.com[3637]: [3780-1] 2016-07-22 17:03:27.340 MSK User: username Database: my_db Host: 192.168.0.52(17809) Proc ID: 3637 etc
Jul 22 17:03:27 my.host example.com[24977]: [138-2] 2016-07-22 17:03:27.339 MSK User: username Database: my_db Host: 192.168.0.52(38494) Proc ID: 24977 etc2
Jul 22 17:03:27 my.host example.com[24977]: [139-1] 2016-07-22 17:03:27.340 MSK User: username Database: my_db Host: 192.168.0.52(38494) Proc ID: 24977 etc
Jul 22 17:03:27 my.host example.com[24597]: [2954-1] 2016-07-22 17:03:27.340 MSK User: username Database: my_db Host: 192.168.0.52(38053) Proc ID: 24597 etc1
Jul 22 17:03:27 my.host example.com[24597]: [2954-2] #011 SELECT count(*) FROM table#015

Для дальнейшего распарсивания логов с помощью grok, необходимо склеить их средствами logstash. Склейка должна получиться вида

line 1: ...[137-1] and [137-2]...
line 2: ...[2953-1]...
line 3: ...[3779-1]...
line 4: ...[3780-1]...
line 5: ...[138-1] and [138-2]...
line 6: ...[139-1]...
line 7: ...[2954-1] and [2954-2]...

порядок строк не важен в принципе, потому что в результате все равно идет привязка ко времени, важно чтобы строки с метками [x-1], [x-2], [x-3] и т.д. собирались в одну строку [x-1] [x-2] [x-3].

Все зацепки на которые можно опираться это метка с номером строки (например [139-1] и т.д.) и pid процесса из квадратных скобок после имени хоста (например [24977]). Другие переменные в качестве опоры при склейки не подходят ибо не гарантируют что строки не будут перепутаны, только pid гарантирует что в рамках одного пида не будет путаницы, ну и сам номер строки тоже дает гарантию.

Я так понимаю для решения задачи подходит codec multiline и/или комбинации с использованием оператора if и т.д. К сожалению перепробовал кучу вариантов за последние пару суток, но ответа так и не нашел пока.

К сожалению варианты типа

multiline {
pattern => "... \[\d+-1\]"
negate => true
what => "previous"
}

Не прокатывают потому что в данном случае склейка идет в перемешку, т.е. на выходе получаю

line 1: ...[137-1] and [137-2]...
line 2: ...[2953-1]...
line 3: ...[3779-1]...
line 4: ...[138-1]...
line 5: ...[3780-1] and [138-2]...
line 6: ...[139-1]...
line 7: ...[2954-1]...

Коллеги выручайте.

Вопрос задан более трёх лет назад
1048 просмотров

5 комментариев

Подписаться 1 Оценить 5 комментариев

Павел Козлов @OrciniusOrsa

Доброго дня,
а что вы хотите получить в итоге?
не только сточки зрения LS, а уже с точки зрения запросов в ES или визуализации Kibana?

Написано более трёх лет назад
zdravnik @zdravnik Автор вопроса

хочу получить распарсенные логи базы, на основе которых можно будет удобно с ними работать используя фильтры кибаны и т.д.

Написано более трёх лет назад
Павел Козлов @OrciniusOrsa

zdravnik: это как раз понятно, но если вы посмотрите grok филтры для LS, там склейка не предуматривается (https://github.com/tykling/logstash-grok-patterns/...

поэтому вопрос смещается в область постановки задачи )
что можно получить из "склееных" строк такого чего нельзя получить из "несклееных"?

в принципе как ответ на Ваш вопрос подходит рекомендация Магнуса
https://discuss.elastic.co/t/grok-filter-for-multi...

тонкость в правильном наполнении двоеточия перед \[\d+-1\]
и обратите внимание что используется мультилайн внутри секции filters

Написано более трёх лет назад
zdravnik @zdravnik Автор вопроса

Павел Козлов: Так а что мне grok фильтры, я сам себе фильтр напишу из грок паттернов.
"тонкость в правильном наполнении двоеточия перед \[\d+-1\] " в этом и вопрос, я пробовал по разному но результата так и не добился.

Написано более трёх лет назад
zdravnik @zdravnik Автор вопроса

Павел Козлов: Да и сам Магнус в другом форуме сказал мне о том что мультилайн фильтр тут не подойдет из-за того что строки могут быть не по порядку. Рекомендуется взглянуть на https://www.elastic.co/guide/en/logstash/2.3/plugi... и я так понимаю этот вариант мне действительно может подойти, но я совсем не знаю ruby от чего не могу написать грамотно опцию code

Написано более трёх лет назад

Помогут разобраться в теме Все курсы

ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее
Stepik

Поколение Python: курс для профессионалов

1 неделя

Далее
Хекслет

Java-разработчик

10 месяцев

Далее

Решения вопроса 1

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Elasticsearch

Простой
Как настроить workflow (n8n v2.3.5) для работы Chat->AI Anget ->Model-Elastcsearch?
- 2 подписчика
- 02 мар.
- 129 просмотров
0

ответов
Elasticsearch

Средний
Как правильно удалять старые данные из индексов elasticsearch?
- 1 подписчик
- 06 февр.
- 189 просмотров
1

ответ
Elasticsearch

Простой
ElasticSearch, поиск в стиле google?
- 2 подписчика
- 07 нояб. 2025
- 212 просмотров
1

ответ
Laravel

+1 ещё

Средний
Production.ERROR: No alive nodes. All the 1 nodes seem to be down -- laravel?
- 1 подписчик
- 14 окт. 2025
- 166 просмотров
0

ответов
PHP

+1 ещё

Средний
Почему некорректно работает регулярное выражение в PHP?
- 1 подписчик
- 06 окт. 2025
- 336 просмотров
3

ответа
Регулярные выражения

+1 ещё

Простой
Как убрать все точки из текстового файла с помощью регулярных выражений в Notepad++?
- 1 подписчик
- 03 сент. 2025
- 281 просмотр
1

ответ
Регулярные выражения

+1 ещё

Средний
Почему один регэксп работает, а второй нет?
- 1 подписчик
- 03 сент. 2025
- 312 просмотров
4

ответа
Регулярные выражения

Простой
Как работает ленивость в регулярных выражениях?
- 2 подписчика
- 31 авг. 2025
- 260 просмотров
2

ответа
Elasticsearch

Простой
Почему opensearch создает кучу процессов?
- 2 подписчика
- 04 авг. 2025
- 309 просмотров
1

ответ
Elasticsearch

Простой
Как побороть несовместимость версий elasticsearch и его fluent плагина?
- 2 подписчика
- более года назад
- 380 просмотров
1

ответ
Показать ещё Загружается…

Доброго дня,
а что вы хотите получить в итоге?
не только сточки зрения LS, а уже с точки зрения запросов в ES или визуализации Kibana?
хочу получить распарсенные логи базы, на основе которых можно будет удобно с ними работать используя фильтры кибаны и т.д.
zdravnik: это как раз понятно, но если вы посмотрите grok филтры для LS, там склейка не предуматривается (https://github.com/tykling/logstash-grok-patterns/...

поэтому вопрос смещается в область постановки задачи )
что можно получить из "склееных" строк такого чего нельзя получить из "несклееных"?

в принципе как ответ на Ваш вопрос подходит рекомендация Магнуса
https://discuss.elastic.co/t/grok-filter-for-multi...

тонкость в правильном наполнении двоеточия перед \[\d+-1\]
и обратите внимание что используется мультилайн внутри секции filters
Павел Козлов: Так а что мне grok фильтры, я сам себе фильтр напишу из грок паттернов.
"тонкость в правильном наполнении двоеточия перед \[\d+-1\] " в этом и вопрос, я пробовал по разному но результата так и не добился.
Павел Козлов: Да и сам Магнус в другом форуме сказал мне о том что мультилайн фильтр тут не подойдет из-за того что строки могут быть не по порядку. Рекомендуется взглянуть на https://www.elastic.co/guide/en/logstash/2.3/plugi... и я так понимаю этот вариант мне действительно может подойти, но я совсем не знаю ruby от чего не могу написать грамотно опцию code

Answer 1 · 2016-08-11 16:48:31

ВОт решение моей задачи:

grok {
match => [ "message", "%{SYSLOGTIMESTAMP:timestamp} %{SYSLOGHOST:logsource} %{SYSLOGPROG}: \[%{INT:line}-%{INT:part_of_line}\] %{GREEDYDATA:ostatok}" ]
}

aggregate {
task_id => "%{line}%{pid}"
code => "
map.merge!(event) if map.empty?
map['full_message'] ||= ''
map['full_message'] += event['ostatok']
"
timeout => 10
push_map_as_event_on_timeout => true
timeout_code => "event.tag('aggregated')"
}

if "aggregated" not in [tags] {
drop {}
}

Как склеить строки в logstash идущие не по порядку?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт