Как адаптировать модели logpai loglizer для поиска аномалий в логах java приложения?

Question

sur-pavel @sur-pavel

Как адаптировать модели logpai loglizer для поиска аномалий в логах java приложения?

Всем привет.
Пытаюсь разобраться в репах https://github.com/logpai. Насколько я понял, самыми важными являются https://github.com/logpai/logparser, который содержит парсеры логов, подготавливающих логи для скармливания моделям из https://github.com/logpai/loglizer. У меня получилось подготовить .log_structured.csv и .log_templates.csv с помощью парсера Drain, используя следующий код:

# Define the log format and regex
    log_format = '<Date> <Time> <Level>:<Content>'
    regex = [r'(/|)([0-9]+.){3}[0-9]+(:[0-9]+|)(:|)']  # IP

    # Define other parameters
    st = 0.5
    depth = 4

    parser = LogParser(log_format, indir=input_dir, outdir=output_dir, depth=depth, 
    st=st, rex=regex)

Все демо моделей loglizer используют .log_structured.csv для тренировки. Например, InvariantsMiner_demo.py. Все модели используют dataloader.load_HDFS() для подготовки логов и anomaly_label.csv с маркировкой аномальных и нормальных BlockId в логах и работают только с логами HDFS (Hadoop Distributed File System). Есть возможность загрузить в модель InvariantsMiner логи без использования anomaly_label.csv, а потом проверить их на anomaly_label.csv.
Я попытался использовать dataloader.load_HDFS() для java-логов, в которых есть RID (requestID), который присутствует во всех сообщениях логов, изменив паттерн с
blkId_list = re.findall(r'(blk_-?\d+)', row['Content'])
на
blkId_list = re.findall(r'(RID:([\w-]+))', row['Content']) в методе load_HDFS(), запустил код и получил вывод:

Total: 196 instances, train: 98 instances, test: 98 instances
====== Transformed train data summary ======
Train data shape: 98-by-34

Train phase:

после чего код работал почти сутки, но из фазы тренировки так и не вышел.

Прошу помочь разобраться в следующих вопросах:
1. Правильно ли я подготовил логи для loglizer и изменил код loglizer модели для обучения ее на логах java?
2. Как правильно подготовить anomaly_label.csv для моих логов?