Какие есть информационные ресурсы по работе с Apache Lucene (Java)?

Question

Артур @antoart

Web developer

Какие есть информационные ресурсы по работе с Apache Lucene (Java)?

Приветствую.

Подскажите, кто какие информационные ресурсы по работе с Apache Lucene (Java) знает.
Есть ли русскоязычые?

p.s. хотел бы сделать нечеткий поиск ключевых запросов по строкам в файле.
англоязычные туториалы не совсем понимаю.

Спасибо за ответы :)

Вопрос задан более трёх лет назад
559 просмотров

Комментировать

Подписаться 4 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

Java-разработчик с нуля

12 месяцев

Далее
Академия Эдюсон

Java-разработчик + ИИ

8 месяцев

Далее
ProductStar × РБК

Профессия: Java-разработчик + ИИ

9 месяцев

Далее

Решения вопроса 1

6 комментариев

Артур @antoart Автор вопроса

Санжар, большое Вам спасибо. :)

Написано более трёх лет назад
Санжар Аубакиров @c0rp

Артур: Вам спасибо! Пост был написан благодаря вопросу

Написано более трёх лет назад
Артур @antoart Автор вопроса

Санжар Аубакиров: Санжар, спасибо за тему на хабре. Попробовал в работе. Еще не углублялся сильно. Возникла сложность с тем, чтобы корректно искать в строчках, которые содержать как русские слова, так и english words. Могли бы подсказать куда копать?

Я сейчас занимаюсь тем, что хочу упростить процесс обработки данных для коллег. Необходимо входящие запросы (названия ПО) искать по списку известных названий. Названия могут быть и русскими, и английскими, и состоящими из разных слов.

Пробовал самопальные средства поиска. Получается не так чтобы очень :)

Написано более трёх лет назад
Санжар Аубакиров @c0rp

Артур: У вас есть возможность разделить тексты на два: русские и английские? Если есть, то просто храните их в разных индексах и делайте поиск по каждому. Если нет, то всё равно сделайте 2 индекса. Проиндексируйте весь текст два раз, один раз с русским аналайзером, второй раз с английским. Во время поиска делайте запрос в оба индекса.

Написано более трёх лет назад
Артур @antoart Автор вопроса

Санжар Аубакиров: Вот оно как. Интересно. А дальше уже работать над ранжированием полученных при поиске результатов?

Написано более трёх лет назад
Санжар Аубакиров @c0rp

Артур: Да, Вам придётся отсечь дубликаты, заведите какой-нибудт уникальный id для текстов. Также Lucene может вовзращать score для каждого документа, этой простейший способ ранжирования и чаще всего больше ничего и не нужно.

Написано более трёх лет назад