Ранжирование списка "количество — значимость" и задача о голосовании?

Question

AndreyIvanoff @AndreyIvanoff

Sphinx

Ранжирование списка "количество — значимость" и задача о голосовании?

Здравствуйте Хабровчане.

Возникла интереснейшая проблема ранжирования результатов поиска.

Допустим есть абстрактная поисковая система по некоторым объектам, которая выдает результат в виде следующего списка соответствий «Количество совпадений — Средняя ошибка совпадений».

На практике возникают следующие ситуации:
Ситуация 1:

Документ 1: 19-0,32

Документ 2: 1-0,59

Документ 3: 2-0,69
Для этого списка решение о найденном объекте принять легко — найден документ 1

А что делать в следующей ситуации:
Ситуация 2:

Документ 1: 19-0,32

Документ 2: 18-0,30

Документ 3: 2-0,69

Тут сомнения между документами с номерами 1 и 2 — и в результат поиска можно с уверенностью выдать два документа.

или вот в такой:
Ситуация 3:

Документ 1: 2-0,1

Документ 2: 18-0,30

Документ 3: 2-0,69

Тут сомнения так же между документами с номерами 1 и 2, но логичнее в поиск выдать документ 2 — так как совпадений больше. Но просто по количеству совпадений в тоже время нельзя ранжировать — так как может быть ситуация 4:

Ситуация 4:

Документ 1: 2-0,1

Документ 2: 18-0,30

Документ 3: 100-0,99

А средняя ошибка 0,99 при 100 совпадениях — это практически отсутствие этих самых совпадений.

Вопрос: Так как выдача алгоритма поиска может состоять из огромного по размеру списка — как его проранжировать и выдать пользователю? Наверное, следует соединить параметры: количество совпадений и точность в один параметр. Как это сделать — есть ли «best practices» на этот счет?

Вопрос задан более трёх лет назад
2787 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Помогут разобраться в теме Все курсы

Нетология

1C-программист: расширенный курс

18 месяцев

Далее
Академия Эдюсон

Python-разработчик + ИИ

9 месяцев

Далее
ProductStar × РБК

Профессия DevOps-инженер + ИИ

5 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

+1 ещё

Простой
Как работать с Manticore Search на php?
- 1 подписчик
- 29 апр.
- 184 просмотра
1

ответ
Sphinx

Простой
Возможно ли настроить wordforms в Manticore с добавлением нескольких синонимов к указанному слову, а не только один?
- 1 подписчик
- 06 окт. 2025
- 95 просмотров
1

ответ
Sphinx

+1 ещё

Простой
Не ставится Sphinx в виртуальной машине Bitrix 7.5.5?
- 1 подписчик
- 14 авг. 2025
- 73 просмотра
0

ответов
Sphinx

Средний
Как указать --skip-ssl в конфиге manticore?
- 3 подписчика
- более года назад
- 374 просмотра
1

ответ
Linux

+2 ещё

Простой
Как установить Sphinx на Alma Linux 9?
- 1 подписчик
- более года назад
- 182 просмотра
4

ответа
PHP

+1 ещё

Средний
Как заставить sphinxsearch 3.6.1 выводить несколько полей?
- 1 подписчик
- более года назад
- 107 просмотров
2

ответа
1С-Битрикс

+1 ещё

Сложный
Как сделать чтобы sphinx выдавал сперва точные совпадения а потом остальные?
- 1 подписчик
- более года назад
- 210 просмотров
1

ответ
Sphinx

Простой
Какие существуют ограничения на количество записей у real time индексов manticoresearch?
- 6 подписчиков
- более двух лет назад
- 375 просмотров
0

ответов
CentOS

+1 ещё

Простой
Почему SPHINX не стартует после остановки какой-то службы?
- 1 подписчик
- более двух лет назад
- 140 просмотров
1

ответ
Sphinx

Средний
Почему текстовое поле из real time индекса пустое при запросе?
- 1 подписчик
- более двух лет назад
- 65 просмотров
1

ответ
Показать ещё Загружается…

Answer 1 · 2011-09-07 13:11:15

Количество ошибочных совпадений в документе равно произведению количества совпадений (N) на коэффициент ошибки (e): Ne = N*e
Тогда вероятность неверного выбора документа будет, кажется: (N-Ne)/N = Pe
Выбираем max Pe.

В любом случае нужно подобрать такую функцию, которая будет минимизировать вероятность неверного выбора документов. Эта задача решается в различных классификаторах.
Эту же задачу можно рассматривать как задачу построения классификатора, определяющего отношение документов к одному из двух классов — ошибочного и релевантного. Однако мало входных данных.

Возможно, что отношение количества совпадений к объему документа также имеет значение. (3 ошибки в слове GUI это не тоже самое, что 3 ошибки в слове representative). :)

Ранжирование списка &quot;количество — значимость&quot; и задача о голосовании?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт

Ранжирование списка "количество — значимость" и задача о голосовании?