Как произвести быстрый поиск в папке с ежедневными zip-архивами гагабайтных лог-файлов?
Есть папка с ежедневными архивами, каждый из которых в чистом виде до 1Гб. Итого, за 5 лет, пусть будет 1.5Тб.
Хочу найти способ (наверняка кто-то же это делает), как найти необходимую информацию по слову или формуле.
Какие есть идеи на текущий момент - установить ПО индексации всей папки (но не знаю сколько будет весить база этого индекса) такие как GOOGLE desktop, YANDEX desktop, dtSearch и другие, надо еще из поизучать чем они отличаются (скорость, поиск в архивах, работа с индексом, объем индекса, расход памяти - важно).
Из других вариантов (более простых, но, видимо, более длительных) рассматриваю CLI-утилиты, готовые скрипты, позволяющие просто искать нужный текст в больших файлах не забивая память системы на объем открываемого файла и не занимая ресурсы жесткого диска. То есть вся работа должна производиться в пределах выделенного объема ОЗУ (512Мб, например) не ерзая жесткий диск понапрасну, то есть не читать и записывать на него одновременно. Например порционно доставать по 100-200Мб искать данные, сохранять результаты и так далее.
Есть еще вариант - может есть утилиты преобразующие лог файлы(произвольного вида) в удобочитаемую форму, очистив логи от мусора (могут присутствовать и большие объемы ненужных бинарных данных), или например конвертировав в базу данных, по заданному алгоритму, и потом наслаждаться SQL-запросами для любого поиска.
Может, я вообще, двигаюсь не в том направлении и есть уже готовые продукты (бесплатные естественно), позволяющие это делать еще проще.
PS. Логи формируются закрытым ПО, т.е. изначально выпускать их в произвольной структуре не имется возможным.
Что представляет собой лог? Сколько там мусора и сколько полезной информации, по которой нужно осуществлять поиск?
Размер в чистом виде около 1гб это размер архива(какова степень сжатия) или размер информации в архиве?
Что именно придется искать - вхождение слова, фразы, выборку всех файлов с данным вхождением?
Как часто придется искать, и как быстро нужны результаты поиска?
АртемЪ: я ищу инструмент не к своим логам а вообще к любым системам с большим объемом логов. Ваши вопросы не меняют суть, т.к. одни и те же логи в разные дни могут быть и 1Гб и 100Мб, степень сжатия высокая, как правило в любых логах, в моем случае - в среднем 20х. В чистом виде - значит в оригинале, т.е. до сжатия.
Цель темы - найти инструмент удобной и быстрой работы с информацией в логах в любое время. Т.е. либо раз в сутки индексировать все логи, либо просто иметь под рукой инструмент поиска по заданной маске - как правило так: найти все файлы, в которых есть вхождение слова, фразы, и подсчитать кол-во таких вхождение и,возможно, какие то дополнительные параметры, основанные на результатах поиска.
Пока что нашел куда копать, осталось только найти бесплатное и максимально кастомизируемое. пример из ответа redakoc - Splunk.com.
А еще есть более специализированные системы, предназначенные именно для анализа логов.
Как онлайновые (за некоторые деньги, это понятно, так как объемы-то немаленькие).
Так и те, что можно скачать и установить локально. Бесплатные и платные.