Как решаются подобные задачи и каким инструментом лучше?

Question

diiimonn @diiimonn

Как решаются подобные задачи и каким инструментом лучше?

Приветствую!
Есть набор данных: Возраст, Пол, Язык.
Есть знание того, что:
[50, Ж, ru] - не хорошо.
[40, Ж, ru] - является наилучшей комбинацией.
[35, Ж, ru] - чуть хуже.
[35, M, ru] - еще хуже.
[20, М, en] - совсем плохо.

Надо подавать на вход комбинацию и получать процент соответствия лучшей. Не знаю с какого краю подступиться к задаче. Есть PHP FANN в распоряжении, но могу еще работать с Python.

Вопрос задан более трёх лет назад
143 просмотра

1 комментарий

Подписаться 3 Средний 1 комментарий

Помогут разобраться в теме Все курсы

Нетология

Data Scientist с нуля

10 месяцев

Далее
Академия Эдюсон

Machine Learning: тариф Базовый

7 месяцев

Далее
ProductStar × РБК

Математика и статистика для аналитика на Python

1 месяц

Далее

Решения вопроса 2

2 комментария

diiimonn @diiimonn Автор вопроса

Спасибо за ваш ответ.
Я это воплотил и это заработало). Но у меня есть небольшое сомнение. Оценочную величину я получаю из статистических данных и она усредненная и не точная. Я еще раз все обдумал и понял что саму оценку то я и хочу получить от инструмента, а по факту могу обучать только подавая 0 или 1. Я правильно понимаю, что если вместо дробной оценки подавать 0 или 1 то суть не поменяется, и нейросеть будет отдавать некоторый дробный результат символизирующий схожесть?

Написано более трёх лет назад
d'Ivan @2ord

@diiimonn
Если на вход подается случайная величина, то это просто шум. Лучше тогда вообще не подавать ее на вход.
Оценочную величину лучше уточнить/улучшить.
Задай это как дополнительный вопрос

Написано более трёх лет назад

1 комментарий

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

Математика

Простой
Опечатка или нет?
- 1 подписчик
- вчера
- 88 просмотров
2

ответа
Хранение данных

+3 ещё

Средний
Как организовать обучение нейронной сети?
- 1 подписчик
- 07 июл.
- 147 просмотров
2

ответа
Математика

Средний
Что такое отношения в предикатной логике?
- 1 подписчик
- 05 июл.
- 146 просмотров
2

ответа
Карьера в IT

+1 ещё

Средний
Хочу попробовать стать системным аналитиком, с чего лучше начать и во сколько попытаться найти работу?
- 5 подписчиков
- 25 июн.
- 1029 просмотров
6

ответов
Машинное обучение

+1 ещё

Средний
Как устроены Нейрохам и подобные ему боты с точки зрения ML?
- 1 подписчик
- 24 июн.
- 495 просмотров
2

ответа
C++

+1 ещё

Простой
Как правильно посчитать UV координаты из локальных нормальных?
- 1 подписчик
- 20 июн.
- 111 просмотров
1

ответ
Информационная безопасность

+3 ещё

Простой
Утечка кейвордов в Телеграм при посещении постороннего сайта?
- 3 подписчика
- 03 июн.
- 323 просмотра
3

ответа
IT-образование

+2 ещё

Средний
Бизнес и системный аналитик: кто это?
- 2 подписчика
- 29 мая
- 419 просмотров
3

ответа
Машинное обучение

+1 ещё

Простой
Какие темы в статистике нужно изучить прежде всего, чтобы начать решать простые задачи машинного обучения?
- 2 подписчика
- 25 мая
- 224 просмотра
2

ответа
IT-образование

+1 ещё

Простой
Важны ли алгоритмы и структуры данных для ML-инженера?
- 2 подписчика
- 25 мая
- 514 просмотров
2

ответа
Показать ещё Загружается…

для таких задач не нужен МЛ... Иначе же классификацией.

Answer 1 · 2019-02-12 18:45:12

Нужно закодировать входные данные вектора.

Возраст можно нормализовать в промежутке лет 20..100 (ну или меньше). То есть 100 лет это число 1.0 , а 20 лет - это 0.0. Все что между - доля от максимума, учитывая нижний порог. Кстати, любой возраст выше максимума для простоты можно принимать за максимум. Аналогично и для минимума.

Пол кодируется просто: 0 (М) или 1 (Ж)

Язык кодируется исходя из набора языков. Если в самом простейшем случае из лишь 2, тогда аналогично кодированию пола. Если больше 2-х, то в целях расширения набора языков имеет смысл кодировать вектором.
Допустим, есть набор языков Rus, Eng, Jap, тогда язык Jap кодируется как вектор (0, 0, 1), где важен порядок языков.

Таким образом, для [50, Ж, ru]
Возраст: (50-20)/(100-20)=0.375
Пол: 1
Язык: (1, 0, 0)

Выстраиваем данные по порядку в итоговый входной вектор: (0.375, 1, 1, 0, 0).
Каждому словесному описанию результата по градации от плохо до отлично давать оценку от 0 до 1 (в процентах).
Таким образом, для каждого входного вектора получаем результат оценки градации.
Если данные не противоречивы, то обучая на множестве репрезентативных данных (80%), в конце можно проверить верность обученной модели на тестировании оставшихся 20% данных.

Помимо машинного обучения есть еще статистические модели, таблицы решений, деревья решений и много других интересных способов решения задачи. Полагаю, в банках при выдаче ссуды и подсчет рисков в страховых компаниях делается не только машинным обучением, поскольку оно может оказаться верным лишь для определенного набора данных.

Answer 2 · 2019-02-12 21:05:46

Если вас интересует серьезное изучение темы, то даю наводку. Официально это называется "Теория многомерного шкалирования". Есть учебники (например - Толстова Ю.Н. Основы многомерного шкалирования - гууглится элементарно), предмет изучается в университете на соответствующих специальностях. Поскольку эта теория используется в основном гуманитариями (психологами, экономистами и пр), то изложение весьма простое.

А вот если интересует подход на основе современной Data Science, то в принципе выше вам почти все правильно написали. Но я бы во-первых, попросил уточнить, вам действительно надо "процент соответствия лучшей" или все-таки задача стоит вновь поступающему описанию придать одну из пяти описанных ранговых(оценок)? Это несколько меняем алгоритм решения. Однако в любом случае, это точно "обучение с учителем. Почти классическая задача Классификации или Регрессии - зависимости от ответа на поставленный вопрос. В принципе - (почти) любой алгоритм подойдет. Если данных не очень много, и нет абсолютной уверенности в их непротиворечивости - то подход на основе деревьев. Тогда во-первых можно обойтись без нормализации (все равно количественных данных у вас аж одно), а во-вторых - использовать совершенно стандартные модули библиотеки scikit-learn.
Но конечно, обучающих элементов чем больше - тем лучше.

Как решаются подобные задачи и каким инструментом лучше?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт