Как повысить точность классификации по табличным документам?

Question

worldandlife @worldandlife

Как повысить точность классификации по табличным документам?

Есть задача классификации на основе табличных документов и классификатора должностей.
В самом классификаторе прописаны области их коды, описания и какие уровни должностей сущействуют в данной области. уровней должностей ~10 кодов. областей ~250
Классификатор используется чтобы вручную проставлять данные в таблицах excel. Иерархия подразделений по уровням 2-8ур., должность, количество подчиненных, а также город, все это влияет на уровень должности и коды областей
Нужно по данным определить:

Уровень должности (например, р0, р1, р2, р3, с1, с2…)

Код области (например, 1.11, 2.25, 81.33 и т.п.)

Пример структуры данных (таблица excel):

"Подразделение 2 уровня": "Управление безопасности",
"Подразделение 3 уровня": "Отдел внутреннего контроля",
"Должность": "Начальник отдела",
"Город": "Москва",
"Код области": "81.33",
"Уровень должности": "р2"
"Подчиненные": "10"

Уровень должности:
Классов 10–15 (р0, р1, р2, ..., с3)
Модель (CatBoost) обучается быстро, даёт:

85% точности на обучающей выборке

~75% на новых, но внутри одной компании (не внешние данные)

Код области:
Классов более 100 (например, 1.11, 2.25, 90.66, 81.33)

Модель обучается долго (CatBoost), и точность всего ~50%

Особенно плохо предсказывает редкие коды

Вопрос:
Можно ли посоветовать рабочую стратегию, чтобы:

Модель предсказывала код области с точностью >80%
Работала стабильно даже на новых документах других компаний или то же компании

Пробовал:
Двухэтапную модель: кластер → код

CatBoost с текстовыми признаками ("контекст" из подразделений и должности)
эмбеддинги + CatBoost

Буду благодарен за рекомендации по архитектуре модели или пайплайна. Какой флоу нужно реализовать чтобы решить данную зачдачу с высокой точностью?

Вопрос задан 19 мая
305 просмотров

5 комментариев

Подписаться 2 Простой 5 комментариев

rPman @rPman

и ни слова, на основе чего же ведется предсказание то?
по какому 'алгоритму' разметку производит человек?

Написано 19 мая
i-aztec @i-aztec

1. 100 классов и цель точность > 80% - амбициозная задача.
Наверняка в данных очень много классов с малым количеством примеров - сильный дисбаланс классов.
2. Есть ли иерархия в кодах областей (например, 1.хх -> 1.1х -> 1.11)?
Может быть есть смысл сначала пробовать предсказывать верхние уровни этой иерархии?

Написано 20 мая
worldandlife @worldandlife Автор вопроса

rPman, Человек использует классфикатор таблицу, в которой прописаны области, их коды, описания и уврони должностей внутри каждой области.

Разметка не делается на основе названия должности, а по функциям, то есть по содержанию работы. Один и тот же "инженер" может относиться к разным кодам в зависимости от задач.

Вот примерный алгоритм, по которому человек размечает должности в рамках сопоставления с классификатором-таблицей,:

1. Понять, что именно делает сотрудник — а не как называется его должность
Название должности часто не отражает сути.

Сравнение идёт по функциональной нагрузке: что входит в обязанности, какие задачи решает, что является основным.

Пример: «Специалист по внедрению HR-систем» и «Менеджер проекта» могут выполнять одинаковую работу — и получат один и тот же код.

2. Определить область специализации
Определяется основное направление деятельности сотрудника.

Если функция широкая (например, человек делает и кадровое делопроизводство, и подбор, и обучение) — попадает в универсальную область.

Если работа узкоспециализированная — выбирается специализированный код.

Пример:

"Подбор персонала" -> узкая область.

"HR-generalist" -> универсальная область.

3. Учесть совмещение функций
Если сотрудник выполняет несколько разных функций:

Разметка идёт по наиболее сложной или «дорогой» по рынку функции.

Или — по той функции, на которую уходит основное время.

Если есть универсальный код, покрывающий обе — можно использовать его.

Пример: Бухгалтер, делающий отчётность по РСБУ и МСФО -> может быть отнесён к «международной отчётности», если это основное и сложное.

4. Определить уровень сложности
Учитывается уровень задач, а не только фактические обязанности.

Эпизодические сложные задачи не повышают уровень.

Если функции на разных уровнях — берётся основной или наиболее квалифицированный.

5. Руководитель или специалист
Проверяется, есть ли подчинённые:

Если есть — это руководитель.

Если нет — даже если в названии «руководитель», классифицируется как специалист.

Исключения — временное отсутствие подчинённых или проектная структура.

Пример: Руководитель проекта без команды в функциональной структуре -> специалист.

6. Сформировать код области
Коды имеют иерархию:

*.1 — управление всей функцией.

*.11 — универсальные области.

*.15 — методологи/архитекторы.

Написано 21 мая
worldandlife @worldandlife Автор вопроса

Еще пробовал RandomForest + признаки + TD-IDF, получислаь точность на обчающей выборке 92%, но прогнав через неизвестный документ 40%. Если обчуить на большем датасете то еще хуже, но выше 50% не удается.

Написано 21 мая
worldandlife @worldandlife Автор вопроса

i-aztec, Спасибо! Подскажите, пожалуйста, как бы вы предложили реализовать иерархическую классификацию именно с точки зрения алгоритма и стратегии?

Я тоже склоняюсь к двухступенчатому подходу:
Сначала определить верхний уровень кода (например, 93),
Затем — уточнение до подкатегории (93.11, 93.15 и т.д.).

Но не совсем ясно:
стоит ли делать это как две независимые модели (первая даёт 93, вторая работает только на подмножестве 93.x),
или лучше строить одно общее дерево с вложенной структурой классов,
или использовать что-то вроде multi-task learning, если модель это поддерживает.

Буду признателен, если подскажете, как вы к такому подходу подходили бы — на уровне логики/архитектуры, не кода.

Написано 21 мая

Помогут разобраться в теме Все курсы

Яндекс Практикум

Python-разработчик

10 месяцев

Далее
Skillbox

Python-разработчик

10 месяцев

Далее
Нетология

Fullstack-разработчик на Python + нейросети

20 месяцев

Далее

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

worldandlife @worldandlife Автор вопроса

Разве ML это не область ИИ?

Написано 29 мая
Владимир @v__V__v

worldandlife, ML - да, ИИ. Но я просто не увидел задачи, для которой тут вообще нужен ИИ, она решается без него.

Написано 29 мая
worldandlife @worldandlife Автор вопроса

Владимир, ну так помогите решить. Разве не для этого существуют подбные форумы?

Написано 02 июн.
Владимир @v__V__v

worldandlife, для помощи, да, но не для выполнения работы за вас, тут у всех есть свои задачи, требующие решения) Тем более, что вам же дали достаточно подсказок. Важно помнить, что ИИ - это искусственный идиот, думать за вас он не будет, т.к. думать не умеет в принципе. Так что сделайте так, как вы и сами уже хотели: сначала модель определяет верхний уровень, потом следующий, потом - третий, четвертый... Это же дерево, в жизни вы же никогда бы сразу на верхушку не прыгнули, а начали лезть от корня. И, действительно, может быть понадобиться использовать две (или больше) моделей - одна определяет верхние уровни иерархии, другая - с учетом полученных от предыдущей модели данных определяет следующие. А то, что плохо предсказываются редкие коды, так это логично - не хватает материала для обучения, предусмотрите обратную связь от живых людей.

Написано 03 июн.
worldandlife @worldandlife Автор вопроса

Владимир, проблема в том что классов 960 для кода области. И даже если обучить по верхнему уровню а потом искать нижний, т.е. 2 модели получается тоже что и с одной моделью. Внутри обчающий выборки результаты хорошие. Внутри документов одной компании результат 48% на документе на котором не была обчена модель RandomForest. Для документа из другой компании уже 19%.

Ну я пишу потому что затык. Я читал статью где предсказывали аналогично коды мкб, так вот я примерно тоже самое делаю.

Написано 04 июн.

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Python

Простой
Каким образом я могу запускать привязанных ботов в основном, что-бы основной loop не ломался и не дублировался?
- 1 подписчик
- 15 нояб.
- 195 просмотров
0

ответов
Python

Простой
Почему конвертация .py файла в .exe с помощью auto-py-to-exe происходит аномально долго и как это исправить?
- 1 подписчик
- 08 нояб.
- 235 просмотров
0

ответов
Python

+2 ещё

Простой
Как решить ошибку с отправкой почты через Outlook SMTP?
- 1 подписчик
- 08 нояб.
- 154 просмотра
0

ответов
Python

+2 ещё

Средний
Как конвертировать drawio (xml) в xml zabbix map?
- 2 подписчика
- 08 нояб.
- 127 просмотров
1

ответ
Искусственный интеллект

Простой
Как скормить весь проект нейросети (grok, chatgpt, deepseek) чтобы она понимала в нём и чтоб можно было просить ее доработать что -то?
- 1 подписчик
- 02 нояб.
- 373 просмотра
4

ответа
Python

Простой
Какой браузер с headless для python не распознаеться и не блокируеться google ai studio?
- 2 подписчика
- 31 окт.
- 255 просмотров
0

ответов
Python

Простой
Как сформировать изображение GS1 DataMatrix с функциональными знаками?
- 1 подписчик
- 31 окт.
- 141 просмотр
0

ответов
Python

+1 ещё

Простой
Почему callback_query_handler в telebot не работает?
- 1 подписчик
- 31 окт.
- 142 просмотра
3

ответа
Алгоритмы

Средний
Как создать алгоритм для ракеты в игре?
- 2 подписчика
- 30 окт.
- 242 просмотра
1

ответ
Python

+1 ещё

Простой
Как исправить проблему с Docling?
- 1 подписчик
- 28 окт.
- 146 просмотров
0

ответов
Показать ещё Загружается…

Backend Python Developer Middle/Senior

AppRoute

До 3 000 $

Python back-end engineer (+Kotlin)

YoloPrice

от 360 000 до 420 000 ₽

Junior Python Developer

ITK academy • Воронеж

от 75 000 ₽

и ни слова, на основе чего же ведется предсказание то?
по какому 'алгоритму' разметку производит человек?
1. 100 классов и цель точность > 80% - амбициозная задача.
Наверняка в данных очень много классов с малым количеством примеров - сильный дисбаланс классов.
2. Есть ли иерархия в кодах областей (например, 1.хх -> 1.1х -> 1.11)?
Может быть есть смысл сначала пробовать предсказывать верхние уровни этой иерархии?
Еще пробовал RandomForest + признаки + TD-IDF, получислаь точность на обчающей выборке 92%, но прогнав через неизвестный документ 40%. Если обчуить на большем датасете то еще хуже, но выше 50% не удается.
i-aztec, Спасибо! Подскажите, пожалуйста, как бы вы предложили реализовать иерархическую классификацию именно с точки зрения алгоритма и стратегии?

Я тоже склоняюсь к двухступенчатому подходу:
Сначала определить верхний уровень кода (например, 93),
Затем — уточнение до подкатегории (93.11, 93.15 и т.д.).

Но не совсем ясно:
стоит ли делать это как две независимые модели (первая даёт 93, вторая работает только на подмножестве 93.x),
или лучше строить одно общее дерево с вложенной структурой классов,
или использовать что-то вроде multi-task learning, если модель это поддерживает.

Буду признателен, если подскажете, как вы к такому подходу подходили бы — на уровне логики/архитектуры, не кода.

Answer 1 · 2025-05-29 10:00:09

Честно говоря, единственная проблема - это использование неподходящего инструмента. Использование искусственного идиота тут ничем не оправдано - это же классическое дерево, а алгоритмы работы с деревьями обсосаны до косточек много раз.

Как повысить точность классификации по табличным документам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт