Задать вопрос

Максим Припадчев

Data Analyst

479

вклад
0

вопросов
490

ответов
54%

решений

Ответы пользователя по тегу Классификация

Почему предсказания дерева решений не совпадает с ожиданием?

Максим Припадчев @Maksim_64
Data Analyst

А почему ты решил, что вероятности должны совпадать с твоей реализацией.
predict_proba из scikit-learn не в коем случае не считает вероятности а калибрует их. И он вполне может это делать плохо.

DecisionTreeClassifier в принципе не является детерминистическим, результаты могут отличаться (не обязательно, но могут.

Ответ написан 09 авг. 2024

1 комментарий

1 комментарий
Как добавить явное условие при обучении модели AI?

Максим Припадчев @Maksim_64
Data Analyst

Явные условия (детерминистические) это не про машинное обучение. Сама суть машинного обучения это обучение без задания явных инструкций.

Твоя проблема, большая называется "несбалансированные классы". 5 в одном 100 в другом это безнадега, модель по умолчанию имеет большую предрасположенность, что мешает обучению.

Это распространенная проблема и к сожалению простого решения (не имеет). Существуют разные стратегии, как с этим бороться, и надо пробовать, что будет работать.

Советую изучить вот эту статью на эту тему внимательно, и запастись терпением. Вот эта статья с медиума (открывается только через vpn) по крайней мере у меня, там тоже BERT и тоже решается проблема с не сбалансированным классами. Есть код. Но повторю проблема решается разными стратегиями препроцессинга (первая статья).

Ответ написан более двух лет назад

1 комментарий

1 комментарий
Как нужно собирать датасет для модели бинарной классификации?

Максим Припадчев @Maksim_64
Data Analyst

Бинарная классификация, подразумевает два варианта пост на IT тематику (True) или (False). Соответственно, только первый вариант, если учебный дата сет не будет содержать разных постов, то обучаться будет не на чем.

Насчет пропорций, здесь интереснее. И так в реальности мы имеем куда более вероятное событие пост не IT чем IT. Но при создании модели нам нужно что бы наши пропорции были примерно равны или около того. Иначе мы будем иметь то что называется bias. У нас например в тренировочном сете значительно больше постов которые не IT и соответственно, мы уже имеем ПРЕДРАСПОЛОЖЕННОСТЬ. Что плохо. По этому изначально, для классификатора, не должно быть такого понятия, как НЕ IT пост более вероятен.

Это общее правило с которого могут быть ответвления, например, когда есть датасет в котором одного класса сильно больше делают еще одну выборку с весами (resampling), то есть выбирают не с равными вероятностями. И потом получают близкое к равное распределение.

В каких то случаях (редко) допускается и отклонения от этого правила, на уровне инженерных причин. Но стартовые позиции, как я описал выше.

Ответ написан более двух лет назад

Комментировать

Комментировать

Самые активные сегодня

Drno
- 6 ответов
- 0 вопросов
Сергей Кузнецов
- 3 ответа
- 0 вопросов
99insania99
- 2 ответа
- 0 вопросов
YgrekK
- 1 ответ
- 1 вопрос
SmeliyR
- 1 ответ
- 1 вопрос
yiso
- 1 ответ
- 0 вопросов

Почему предсказания дерева решений не совпадает с ожиданием?

Как добавить явное условие при обучении модели AI?

Как нужно собирать датасет для модели бинарной классификации?

Войдите на сайт