Как проанализировать логи на корректность выполнения списка действий в задачах?
Есть большой объем логов (порядка 2 Тб). В логах есть записи о выполнении определенных процессов. Для каждого процесса есть свой лог-файл. Каждый процесс периодически выполняет какую-то задачу, в которой есть действие 1, действие 2 и т.д. Иногда эти процессы падают. Надо проанализировать логи и узнать что действия в задачах были выполнены в нужной последовательности. Каким средствами можно это сделать?
Я пробовал Apache Spark, но не могу понять как в нем сгруппировать действия по задачам. Дело в том что до некоторых пор в логах не записывались идентификаторы задач в действиях или записывались только для некоторых.
В комментарии на предыдущий ответ я привел пример лога:
1 action1
2 action2
3 action1
4 action2
5 action3
Как в Clickhouse сгруппировать строки лога чтобы получить группы из строк (1, 2) и строк (3, 4, 5)? Мне нужно разделить эти группы, т.к. для меня группа (1, 2) это некорректно завершившаяся задача, а (3, 4, 5) корректно завершившая задача.