Как настроить параметры поиска в Apache Solr?

Question

Алексей @Espritto

Как настроить параметры поиска в Apache Solr?

Добрый день! Начал использовать текстовый поисковик Solr версии 8.3.0 и изучаю его возможности. Из коробки все работает достаточно сносно, но видно, что можно еще улучшить результаты выдачи, но ковыряясь в документации так и не нашел того, что нужно. Интересуют следующие вопросы:
1) учитывать только одно вхождение поискового слова в искомом тексте. Сейчас получается, что чем чаще в тексте встречается искомое слова, тем релевантность текста выше. Это надо отключить и отдавать предпочтение тому тексту, где встречается поисковое слово только один раз.
2) приоритет был бы у более коротких текстов
3) как заточить поиск конкретно по русскому языку? Знаю, что есть тип text_ru но как его применить не очень понимаю
4) при нечетком поиске давать предпочтение первой части слова. Грубо говоря меньше обращать внимание на окончание а больше на корень.

Если тут есть специалисты по Solr то подскажите, как вышеперечисленное можно затюнить или ткнуть носом в соответствующие доки.

Вопрос задан более трёх лет назад
794 просмотра

Комментировать

Подписаться 2 Средний Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Решения вопроса 1

Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Автоматизация обработки текста

Простой
Существует ли инструмент (система) автоматизации форматирования текста в docx по предопределенным правилам?
- 2 подписчика
- 05 авг. 2025
- 209 просмотров
2

ответа
Нейронные сети

+1 ещё

Средний
Как автоматически создавать большие отчёты из множества docx файлов?
- 2 подписчика
- более года назад
- 470 просмотров
4

ответа
HTML

+2 ещё

Простой
Как выполнить ëфикацию без сторонних библиотек?
- 2 подписчика
- более года назад
- 711 просмотров
2

ответа
Автоматизация обработки текста

Простой
Какой код вбить, чтобы он склонял определëнное слово да ещë и повсеместно на странице/сайте?
- 2 подписчика
- более года назад
- 92 просмотра
2

ответа
Нейронные сети

+1 ещё

Средний
Как определить ключевые слова из текста?
- 1 подписчик
- более года назад
- 95 просмотров
2

ответа
Поисковая оптимизация

+4 ещё

Средний
Как заполнить таблицу excel?
- 1 подписчик
- более двух лет назад
- 274 просмотра
4

ответа
Автоматизация обработки текста

Простой
Динамическая + стачическая сортировка одновременно возможна?
- 1 подписчик
- более двух лет назад
- 76 просмотров
0

ответов
Регулярные выражения

+2 ещё

Простой
Как обрезать часть строки в Excel (Пример прикрепляю)?
- 2 подписчика
- более двух лет назад
- 256 просмотров
2

ответа
Python

+3 ещё

Средний
Какие существуют библиотеки Python для комплексной обработки текста, включая исправление ошибок и удаление лишних символов?
- 1 подписчик
- более двух лет назад
- 688 просмотров
1

ответ
Автоматизация обработки текста

+1 ещё

Сложный
Кто знает user-friendly инструмент для поиска по файлам с помощью языковых моделей (RAG)?
- 4 подписчика
- более двух лет назад
- 292 просмотра
2

ответа
Показать ещё Загружается…

Answer 1 · 2019-11-15 16:23:53

Понимаю, что вопрос очень специфический и даже на стэковерфлоу никто не откликнулся, хотел уже дергать непосредственно разработчиков Solr-а но все же разобрался сам по этому отвечаю сам себе...

1) Надо модифицировать scorer - алгоритм оценки и ранжирования найденных совпадений. В этом алгоритме нас интересует параметр Term Frequency (сокр. TF, обычно он используется вместе со своим братом IDF — inverse document frequency, но в данном случае его трогать не надо). TF подсчитывает количество слов в документе и чем оно больше, тем выше оценка. Нам нужно игнорировать этот параметр, по этому надо найти место в коде движка и прописать, чтобы всегда возвращалось 1. Solr использует класс Similarity для оценки результатов, точнее множество расширений этого класса, реализующие разные алгоритмы. В конфигах ядра базы прописал, чтобы использовался класс ClassicSimilarityFactory а в реализации класса ClassicSimilarity захардкодил, чтобы функция tf() всегда возвращала 1.0f. Поскольку Solr это опенсорский проект написанный да Java то изменение исходников не составляет особого труда. Дальше по инструкции из README билдим проект, запускам - все работает! Убедиться, что расчеты весов правильные можно через дебаг режим в запросе (тогда вместе с результатом будет возвращена отладочная инфа)
2) на самом деле это и так уже и так работает из коробки, тут ничего делать не надо
3) как говорилось, есть уже готовый тип text_ru в котором уже настроен русский стеммер. Чтобы текста обрабатывался по "правилу русского языка" нужно либо назвать текстовое поле *_text_ru либо явно создать новое поле в админке в разделе schema и указать ему тип text_ru
4) это и так будет происходить если использовать тип данных с русским стеммером, то есть слова будут искаться по корню а окончания отбрасываться

Как настроить параметры поиска в Apache Solr?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт