Санжар Аубакиров: Санжар, спасибо за тему на хабре. Попробовал в работе. Еще не углублялся сильно. Возникла сложность с тем, чтобы корректно искать в строчках, которые содержать как русские слова, так и english words. Могли бы подсказать куда копать?
Я сейчас занимаюсь тем, что хочу упростить процесс обработки данных для коллег. Необходимо входящие запросы (названия ПО) искать по списку известных названий. Названия могут быть и русскими, и английскими, и состоящими из разных слов.
Пробовал самопальные средства поиска. Получается не так чтобы очень :)
Артур: У вас есть возможность разделить тексты на два: русские и английские? Если есть, то просто храните их в разных индексах и делайте поиск по каждому. Если нет, то всё равно сделайте 2 индекса. Проиндексируйте весь текст два раз, один раз с русским аналайзером, второй раз с английским. Во время поиска делайте запрос в оба индекса.
Артур: Да, Вам придётся отсечь дубликаты, заведите какой-нибудт уникальный id для текстов. Также Lucene может вовзращать score для каждого документа, этой простейший способ ранжирования и чаще всего больше ничего и не нужно.