Задать вопрос
@worldandlife

Как улучшить семантический поиск и стаблилизировать Recall?

Есть классификатор.

Внутри него 800 плюс позиций - коды областей. У каждой есть совое описание короткое в среднем предложений 5-10.
Внутри каждой области есть уровни должности с такими же описаниями

Каждый код можно абстрактно объединить в некую общую группу

например

код 1.1 - Работа с юрлицами. Описание
код 1.22
код 1.33

код 50 - Безопасность Б описание
код 50.1
код 50.2

Проблема описания очень похожи между собой

Также есть примеры заполенных документов

Тоесть запрос типа департамент - должность должен соотвествовать каком то коду с описанием

Можно ли сделать семантичесский поиск и recall top 10 - 15 чтобы туда стабильно попадал нужный код.

Ипользовал Bert и модели обученные на русском корпусе типа ai-forever, для генерации эмбеддингов

Результат даже для top 100 составляет всего 6%, тоесть подход не работает.

Пример запроса.
Отдел депозитарных операций - Главный инженер
  • Вопрос задан
  • 16 просмотров
Подписаться 1 Средний Комментировать
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы