Библиотека для индексации документов Golang?

Question

DollyPapper @DollyPapper

Go

Библиотека для индексации документов Golang?

Всем привет. Есть следующая задача. Есть некоторый лог файл по которому нужно искать из приложения. Файл может быть очень большой, по этому просто проходится по нему для каждого поискового запроса не варик. Ищу какое-то решение, или подход к проблеме.
Структура записи в этом логе всегда одинаковая, типа: event: role: time: и тд.
Допустим есть 100 записей в логе с event: "login". Нужно иметь возможно некоторый индекс, который хранит, что для event: "login" в файле имеются 100 записей в строках n, n+100, n+50000 и тд. Чтобы можно было быстро вытащить эти строки.
Смотрел в сторону полнотекстового поиска, но решение не подходит по нескольким причинам. Первая: нельзя использовать готовые поисковые движки типа эластика, потому что приложение хостится у разных заказчиков и доступа к этим инстансам чтобы их админить мы не имеем, а чем больше подвижных частей, тем более вероятно, что оно отвалится. Есть решения для го в качестве библиотек полнотекстового поиска, но они как я понял индексируют именно вхождения в документы, а у меня он один и мне нужно идексировать где конкретно в документе находится то что я ищу.
Может кто сталкивался с подобной задачей, направьте на путь верный пожалуйста)

Вопрос задан более двух лет назад
218 просмотров

8 комментариев

Подписаться 2 Средний 8 комментариев

Дмитрий @iMedved2009

не совсем понятно. Логи у вас лежат? Или где то там?

Написано более двух лет назад
DollyPapper @DollyPapper Автор вопроса

Дмитрий, где то там. Софт on-premise, хостится у заказчиков. Заказчики хотят эти логи видеть в веб морде и уметь по ним фильтровать.

Написано более двух лет назад
Дмитрий @iMedved2009

DollyPapper, а как вы к ним собираетесь обращаться что бы проиндексировать?

Написано более двух лет назад
DollyPapper @DollyPapper Автор вопроса

Дмитрий, всмысле как? Они на том же сервере где и наш софт. Этот лог по сути огромный txt файл.

Написано более двух лет назад
Дмитрий @iMedved2009

DollyPapper, а. то есть у вас есть приложение которое работает на серваках, оно генерирует логи, и в этом приложении вам надо сделать фильтрацию по этим логам? А есть аргументы не использовать для генерации и хранения этих логов какую нибудь файловую бд тот же sqllite?

Написано более двух лет назад
DollyPapper @DollyPapper Автор вопроса

Дмитрий, есть. Задача изначально была поставлена, что ФСТЕК требует эти логи в виде тестового файла (хз зачем, просто приняли как данность мимо меня). Теперь тот же ФСТЕК хочет чтобы была возможность смотреть и в веб морде и в тестовом файле. Больше аргументов нет.

Написано более двух лет назад
Дмитрий @iMedved2009

DollyPapper, А в сторону каких нибудь реализаций btree или b+tree индексов смотрели?

https://github.com/datastream/btree
https://github.com/timtadh/fs2/tree/master/bptree

Написано более двух лет назад
DollyPapper @DollyPapper Автор вопроса

Дмитрий, да, сейчас как раз изучаю вопрос в сторону скорее inverted индексов.

Написано более двух лет назад

Пригласить эксперта

Ответы на вопрос 4

Комментировать

2 комментария

DollyPapper @DollyPapper Автор вопроса

Смотрел в сторону полнотекстового поиска, но решение не подходит по нескольким причинам. Первая: нельзя использовать готовые поисковые движки типа эластика, потому что приложение хостится у разных заказчиков и доступа к этим инстансам чтобы их админить мы не имеем, а чем больше подвижных частей, тем более вероятно, что оно отвалится.

Читай сначала вопрос

Написано более двух лет назад
darst @darst

DollyPapper, прочитал. У вас задача сводится к тому, что нужно сделать бд, чтобы быстрее искать данные. И ещё раз, вы сами себе усложняете жизнь и собираетесь делать, то что до вас уже сделано. Поставьте тот же грейлог на строне заказчика, загрузите в него файл лога и через api забирайте те данные, которые вам нужно выводить на странице. Можете установить его на отдельный сервер и предоставить доступ к веб интерфейсу, тем кому надо.

Написано более двух лет назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Go

Простой
Как пропустить поле при конвертации структуры в JSON?
- 1 подписчик
- вчера
- 67 просмотров
0

ответов
Go

Простой
Можно ли получить исходное имя файла до переименования из fsnotify?
- 3 подписчика
- 09 окт.
- 181 просмотр
1

ответ
Go

+1 ещё

Простой
Какой наиболее привычный путь для удаленного хранения настроек линтинга в Go?
- 1 подписчик
- 30 сент.
- 130 просмотров
1

ответ
Go

Простой
GO + FYNE GUI как запустить скрипт после подтверждения в диалоговом окне dialog.ShowConfirm?
- 1 подписчик
- 24 сент.
- 105 просмотров
1

ответ
Go

Простой
GO + FYNE GUI — какой макет — Layout выбрать для desktop приложения? Как сделать сайдбар и контентную часть?
- 2 подписчика
- 22 сент.
- 96 просмотров
1

ответ
Go

Простой
GO fyne serve выдает ошибку?
- 1 подписчик
- 13 сент.
- 102 просмотра
1

ответ
Базы данных

+2 ещё

Средний
Как автоматически откатить в CI/CD миграции при помощи Goose, если их было несколько?
- 3 подписчика
- 04 сент.
- 430 просмотров
1

ответ
React

+2 ещё

Простой
Как корректно загружать изображения с react на бэкенд через graphql?
- 1 подписчик
- 22 авг.
- 150 просмотров
1

ответ
Go

+2 ещё

Простой
Две ошибки только в VC code которые не дают мне писать код?
- 1 подписчик
- 02 авг.
- 433 просмотра
1

ответ
Linux

+1 ещё

Простой
Trace/breakpoint trap (core dumped)?
- 1 подписчик
- 22 июл.
- 398 просмотров
2

ответа
Показать ещё Загружается…

Senior Go Backend Developer

Selecty

от 400 000 ₽

Go-разработчик / Backend Developer (Golang)

Karma8

До 500 000 ₽

GoLang разработчик на высоконагруженный проект

TrafficOX

от 2 500 до 4 500 $

не совсем понятно. Логи у вас лежат? Или где то там?
Дмитрий, где то там. Софт on-premise, хостится у заказчиков. Заказчики хотят эти логи видеть в веб морде и уметь по ним фильтровать.
DollyPapper, а как вы к ним собираетесь обращаться что бы проиндексировать?
Дмитрий, всмысле как? Они на том же сервере где и наш софт. Этот лог по сути огромный txt файл.
DollyPapper, а. то есть у вас есть приложение которое работает на серваках, оно генерирует логи, и в этом приложении вам надо сделать фильтрацию по этим логам? А есть аргументы не использовать для генерации и хранения этих логов какую нибудь файловую бд тот же sqllite?
Дмитрий, есть. Задача изначально была поставлена, что ФСТЕК требует эти логи в виде тестового файла (хз зачем, просто приняли как данность мимо меня). Теперь тот же ФСТЕК хочет чтобы была возможность смотреть и в веб морде и в тестовом файле. Больше аргументов нет.
DollyPapper, А в сторону каких нибудь реализаций btree или b+tree индексов смотрели?

https://github.com/datastream/btree
https://github.com/timtadh/fs2/tree/master/bptree
Дмитрий, да, сейчас как раз изучаю вопрос в сторону скорее inverted индексов.

Answer 1 · 2023-09-09 15:36:04

Когда-то давным давно использовали logrotate. Эта утилита просто дробила лог на дневные и часовые
и прочие доли. Это позволяло искать быстрее. Если ты заранее знаешь что событие произошло например
за последние сутки а не за последние 10 лет к примеру. Но logrotate может не работать под Windows.

Коробочного решения для твоего вопроса я не знаю. Кроме Elastic ничего не приходит в голову.

Есть еще программный продукт Splunk. Но я его никогда не использовал поэтому советовать не буду. Почитай сам.

Вообще тебе нужен разработчик. Я думаю что дешевле всего трекать отдельные логи по событию event:login к примеру. Я так делал для сужения поиска. Для библиотек log4j это конфигурируется на уровне приложения.
Там как-то добавляется appender + rule.

Answer 2 · 2023-09-09 17:09:40

Либо менять способ хранения лога на что то структурированное (даже если это будет sqlite база без индексов, уже хорошо, но лучше конечно полноценную БД) и в последствии не знать горя, либо пилить сервис, который будет на лету мониторить изменения в логах и заливать опять же их в структурированную БД.

Все зависит от типов запросов, от того, какие индексы тебе нужны, если хватит индекса по времени, уже считай повезло (когда при анализе приходится сканировать весь массив данных за запрошенный интервал) и данные можно будет хранить, поделив на интервалы (в реляционных базах есть для этого инструменты).

Под БД я имею в виду любой инструмент который умеет индексировать записи и выделять структурные элементы (твои event: role: time: и тд.), причем возможна ситуация, когда сами данные дополнительно хранить не обязательно (хватит только индекса и информации о том где эти данные лежат),

в одном месте

у меня было (непродолжительное время как эксперимент) так, данные хранились в текстовом дампе, утилита индексации обновления данных вычисляла и хранила информацию о именах файлов и смещении в них для каждой записи, а по каждой записи для полей смещение внутри записи и длину строки (там были только числа и строки), информация об этом была значительно компактнее чем делать их копию в базу... но и индексировать ничего не надо было кроме времени.

p.s. От текстовых, а точнее не структурированных, логов лучше избавляться с самого начала разработки, причем буквально на столько, чтобы приложение вообще ничего не выдавало в stdout и stderr (кроме собственно хелпа и данных, если это потоковые инструменты), причем конечно красивее централизованно красиво собирать логи по сети в хорошую БД, но не обязательно, иногда даже простая сериализация объектов в php:serialize/json по событиям по строчкам в тот же лог файл уже лучше, ведь такие файлы обрабатывать на порядок проще (json можно парсить на скорости гигабайты в секунду потоковыми парсерами, и это в одном потоке)... ну на это на сколько я знаю куча библиотек написано, в т.ч. прямо встроенные в ОС

Answer 3 · 2023-09-14 17:40:41

darst @darst

Читай лог файл и пиши данные, например, в кликхаус.

Ответ написан более двух лет назад

2 комментария

Answer 4 · 2023-09-20 16:52:34

lelvisl @lelvisl

https://github.com/google/codesearch

Ответ написан более двух лет назад

Комментировать

Библиотека для индексации документов Golang?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт