Как оформить классификатор с разной структурой данных на обучении и тесте?

Question

Александр Куракин @kuraga333

Программист, аналитик

Машинное обучение

Как оформить классификатор с разной структурой данных на обучении и тесте?

Я пишу свой классификатор на scikit-learn. То есть наследую sklearn.base.BaseEstimator. Но структура данных на обучении и на тесте отличаются (классифицируемый объект - спортивный матч),

на обучении это названия команд и набор событий, отвечающих за матч,
а на тесте это только названия команд.

Отмечу, что "набор событий" вообще сложно представить в виде матрицы...

Как это оформить?
UPD. Имеется ввиду: какие сигнатуры у методов должны быть, если я наследую sklearn.base.BaseEstimator?

Вопрос задан более трёх лет назад
151 просмотр

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

5 комментариев

Александр Куракин @kuraga333 Автор вопроса

Я использую второй вариант. Как это оформить? Какие сигнатуры методов тут должны быть?

Написано более трёх лет назад
Vlad_Fedorenko @Vlad_Fedorenko

Александр Куракин: можно завести словарь {команда : ваш_признак} в методе fit()

Написано более трёх лет назад
Vlad_Fedorenko @Vlad_Fedorenko

И обращаться к нему при вызове predict

Написано более трёх лет назад
Александр Куракин @kuraga333 Автор вопроса

Vlad_Fedorenko: спасибо! А ничего, что в методе fit параметр X будет иметь иную структуру, нежели в predict? Да и вообще, X - набор событий, не совсем матрица... Это ничему не противоречит?

Собственно, эти сомнения и породили вопрос, ясно, что теоретически можно сделать как угодно... Просто я думал эту фазу в transform запихнуть, но все равно выходит, что в fit и в predict данные разной структуры...

Написано более трёх лет назад
Vlad_Fedorenko @Vlad_Fedorenko

Александр Куракин: А есть пример трейна и теста? Можно transform дёргать из predict

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Нейронные сети

+1 ещё

Простой
Как вычисляется MSE в VAE?
- 1 подписчик
- 24 июл.
- 48 просмотров
0

ответов
Машинное обучение

+1 ещё

Простой
Reverse engineering black box ML-модели?
- 1 подписчик
- 10 июл.
- 134 просмотра
3

ответа
Python

+3 ещё

Простой
Как повысить точность классификации по табличным документам?
- 2 подписчика
- 19 мая
- 268 просмотров
1

ответ
Машинное обучение

+2 ещё

Средний
Какие виды эмбединга используется в nlp?
- 1 подписчик
- 10 мая
- 90 просмотров
1

ответ
Машинное обучение

Средний
В чем преимущество позиционного кодирования синусами?
- 1 подписчик
- 25 апр.
- 104 просмотра
1

ответ
Машинное обучение

Простой
Как обучается трансформер?
- 1 подписчик
- 25 апр.
- 91 просмотр
1

ответ
Python

+2 ещё

Средний
GeForce GTX 1650 > RTX A2000 — как такое возможно?
- 2 подписчика
- 15 апр.
- 739 просмотров
2

ответа
Машинное обучение

+2 ещё

Средний
Какие архитектуры с механизмом внимания появились после transformer?
- 2 подписчика
- 11 апр.
- 171 просмотр
1

ответ
Python

+4 ещё

Средний
Как реализовать фарм-бота для игры Rush Royale?
- 1 подписчик
- 01 апр.
- 737 просмотров
2

ответа
Регулярные выражения

+2 ещё

Простой
Поиск оптимальной регулярки для бинарной классификации строк. Как?
- 1 подписчик
- 22 мар.
- 197 просмотров
1

ответ
Показать ещё Загружается…

ML Engineer

Vortex • Москва

от 330 000 до 380 000 ₽

ML Engineer / Data Scientist (Middle+, 25h/w)

Perare

от 2 100 до 2 600 $

React-разработчик (frontend) с опытом работы в области ML

DevTeam.Space

от 2 000 до 3 000 $

Answer 1 · 2016-10-09 17:33:58

Либо не использовать при обучении признаки, которые не будут доступны в тесте, либо использовать информацию из трейна а-ля для команды 1 средняя доля выигрышей 0.67. Но тут просто переобучиться и натолкнуться на ситуацию, когда в тесте будет команда, которой не было в трейне

Как оформить классификатор с разной структурой данных на обучении и тесте?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт