Как понять ML на элементарном эксперименте?

Question

Kind_Man @Kind_Man

Машинное обучение

Как понять ML на элементарном эксперименте?

Всем привет. Я новичок в сфере ML. Решил провести элементарный эксперимент, результаты которого хочу обсудить с вами.

Я создал датафрейм с 2 колонками: в 1 рандомные числа от 0 до 1000, во второй значения 0 или 1 в зависимости от того, четное число в первой колонке или нет.

Мне казалось, что с такой элементарной задачей, с которой справится и ребенок, алгоритм-то справится и подавно. А вот как вышло в действительности:

KNN Model Evaluation:
Accuracy for training set: 0.691
Accuracy for testing set: 0.495
F1 score for testing set: 0.495
Recall for testing set: 0.495
Precision for testing set: 0.495
Average cross-validation score: 0.51

Random Forest Model Evaluation:
Accuracy for training set: 1.000
Accuracy for testing set: 0.600
F1 score for testing set: 0.598
Recall for testing set: 0.600
Precision for testing set: 0.605
Average cross-validation score: 0.58

Алгоритмы не смогли поймать эту закономерность. При этом, если увеличить датасет с 1000 записей до 10000, то тогда уже делают это в легкую:

KNN Model Evaluation:
Accuracy for training set: 0.996
Accuracy for testing set: 0.980
F1 score for testing set: 0.980
Recall for testing set: 0.980
Precision for testing set: 0.980
Average cross-validation score: 0.96

Random Forest Model Evaluation:
Accuracy for training set: 1.000
Accuracy for testing set: 1.000
F1 score for testing set: 1.000
Recall for testing set: 1.000
Precision for testing set: 1.000

Подскажите, почему так? Разве алгоритмы не должны сами найти закономерность в данных и на этой основе сделать выводы? Почему 1000 случайных целых чисел для правильного вывода недостаточно (четное - нечетное, ничего же больше)

Вероятно, ответом будет, что инженер машинного обучения сам должен заметить подобную вещь в данных, на этой основе создать новую колонку четное-нечетное, и уже дальше всё получится. Но вопрос в другом: не должна ли сама модель сама увидеть эту закономерность в оригинальных данных и решить задачу?

Вопрос задан более двух лет назад
58 просмотров

1 комментарий

Подписаться 1 Простой 1 комментарий

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Видеокарты

+1 ещё

Средний
Целесообразно ли использование двух RTX 5080 для обучения нейросетей?
- 1 подписчик
- вчера
- 124 просмотра
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 309 просмотров
3

ответа
Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 56 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 137 просмотров
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 287 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 93 просмотра
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 109 просмотров
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 92 просмотра
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 756 просмотров
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 174 просмотра
1

ответ
Показать ещё Загружается…

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

Middle/Senior Data Scientist (команда ИИ и аналитика)

Сбер • Москва

от 200 000 до 350 000 ₽

Проведи больше эпох обучения. Ну и потом, отделить чётное от не чётного с помощью умножения несколько не очевидно как. Если нарисовать эти данные на плоском графике, то чтобы построить рассекающую ломаную, надо 2000 отрезков. А у тебя всего 1000 примеров на 1000 вариантов.

Answer 1 · 2023-03-20 14:21:46

Добро пожаловать в теорию вероятностей и больших чисел. ИНС всегда оперирует вероятностями. И 100% вероятности наступают только на бесконечном множестве чисел, вот и все.

Обратный пример. Вы подбросили монетку 1 раз, выпал орел. Вы подбросили монету 10 раз - выпал снова 10 раз орел. Вы подбросили монету 100 раз - выпал 100 раз орел. Означает ли это что на 101 тоже выпадет орел? Нет. Собственно ваш датасет ничем от бросания монетки и не отличается. В нем может вообщ едоминируют четные и НС считает что ВЕРОЯТНОСТЬ четных чисел выше и ошибается в их сторону.

Мораль - ИНС не надо юзать дам, где можно юзать предсказуемые, не основанные на вероятности, алгоритмы

Как понять ML на элементарном эксперименте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт