Есть ли какой-то метод (модуль, утилита) как обнаружить шаблоны сообщений в логах? Например, у нас есть лог вроде:
00:00:01 User John logged in from IP 1.1.1.1
00:00:02 User Jack logged in from IP 2.2.2.2
00:00:03 User John sent email to aaa@bbb.com
....
Например, по этому куску должны построиться шаблоны:
<регекс времени> User <регекс юзера> logged in from IP <регекс IP>
<регекс времени> User <регекс юзера> sent email to <регекс email>
Думаю, построить точный регекс по логу, без понимания семантики невозможно (например, допустимы ли у нас русские буквы или цифры в юзернеймах; может ли в IP быть октет со значением больше 255) - фиг с ним, игнорируем эту проблему. Делаем не очень аккуратные регексы - это ОК. Но регекс не должен путать записи одного типа с записями другого.
Идея в том, чтобы взять какой-нибудь mail.log и в нем же будет всего 100-200 типов сообщений от MTA, антиспама, pop3/imap сервера - вот хочется как-то легко разбить все записи на эти вот типы сообщений.