Как улучшить семантический поиск и стаблилизировать Recall?
Есть классификатор.
Внутри него 800 плюс позиций - коды областей. У каждой есть совое описание короткое в среднем предложений 5-10.
Внутри каждой области есть уровни должности с такими же описаниями
Каждый код можно абстрактно объединить в некую общую группу
например
код 1.1 - Работа с юрлицами. Описание
код 1.22
код 1.33
код 50 - Безопасность Б описание
код 50.1
код 50.2
Проблема описания очень похожи между собой
Также есть примеры заполенных документов
Тоесть запрос типа департамент - должность должен соотвествовать каком то коду с описанием
Можно ли сделать семантичесский поиск и recall top 10 - 15 чтобы туда стабильно попадал нужный код.
Ипользовал Bert и модели обученные на русском корпусе типа ai-forever, для генерации эмбеддингов
Результат даже для top 100 составляет всего 6%, тоесть подход не работает.
Пример запроса.
Отдел депозитарных операций - Главный инженер