Какие простые, «бытовые» задачи подходят для изучения машинного обучения?

Question

pvs11 @pvs11

Какие простые, «бытовые» задачи подходят для изучения машинного обучения?

Коллеги, всем привет!

Занимаюсь разработкой порядка 15-и лет. Опыт есть разный, в основном веб, но не только.
Решил расширить кругозор и познать новое, поэксперементировать. В качестве новой сферы изучения и самообразования выбрал - машинное обучение.
По своему опыту знаю, что для меня самый правильный путь позания - от практики. Поэтому решил попытаться реализовать нексколько пробных задач, чтобы как-то изучить инструментарий.

Есть ряд вопросов, в которых требуется помощь:

1. Как отличить задачи для которых подходит машинное обучение?

В теории понятно: всё, что не имеет простого алгоритма решения. Первое, что приходит на ум - поиск объектов на изображении, распознавание рукописного текста - но это всё очень сложные задачи, и для обучения не годятся.
А что можно придумать простого, более бытового, что подошло бы для обучающей задачи, при этом действительно бы показывало силу инструмента машинного обучения?

Приведу примеры:
- видел пример задачи распознавания языка по статистике символов. Интересно, но выглядит достаточно примитивно. Ведь я и без машиного обучения посчитаю статистику, и просто сравнивая буду поулчать результат ничем не хуже.
- различные примеры с логическими операторами. Да, выглядит интересно, но зачем? Ведь там в исходных данных есть вссе ответы, на все варианты входных данных. В чём суть?
- видел пару статей про классификацию твитов и спам, но пока их подробно не разобрал. Хотел сначала поиграть просто с числами, освоится, а потом уже на второй ступеньке идти туда, потому что пока не представляю, как эту задачу развить хотя бы как-то на бытовом уровне за рамки самих представленных примеров.

2. Для первых проб взял за основу примеры из php fann: https://github.com/bukka/php-fann

Пример с логикой. Интересно, но как и писал выше не ясно, как его развить?

Более интересным показался пример с OCR. Выглядит очень интересно. Но на практике всё оказалось хуже, чем предполагал. Стоит изменить во входных данных хотя бы одну ячейку и всё перестаёт работать. Нормальная работа идёт ТОЛЬКО если тестовые данные идентичны тем, на которых обучали.

Пример:

Массив для буквы F:

$test_F = array(
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 1, 1, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0);

Если просто подправлюнемного форму буквы, например так:

$test_F1 = array(
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 1, 1, 1,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0);

$test_F2 = array(
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 1, 1, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 1, 1, 1, 1, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 1, 1, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
0, 0, 0, 0, 0, 0, 0, 0, 0, 0);

То всё перестаёт работать. Но разве не в этом суть машинного обучения, чтобы система была способна решать подобные задачи?
Ведь то что есть сейчас - просто сравнение с одним из вариантов во входных данных. Но зачем мне инструмент машинное обучение если я и сам могу сравнить все исходные массивы, и найти тот, что совпадает?

Третья задача - построение маршрута. Там ситуация идентична второй. Все варианты в тестовом наборе идентичны вариантам в данных обучения.
В моём понимании цель в том, чтобы научить его строить самому маршруты, а не просто заранее сгенерировать все варианты ответов. Может быть я не так понимаю суть?

Как правильно развить эти примеры, чтобы почувствовать эффект?

Вопрос задан более года назад
213 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ответы на вопрос 3

3 комментария

pvs11 @pvs11 Автор вопроса

Машинное обучение (ML) это над-множество задач типа классификация, регрессия, кластеризация и детектирование аномалий.

Мне хотелось бы научиться решать подобные задачи.

В этом есть инженерная мысль - решать задачи подходящим инструментом.

Да, верно. Но, чтобы использовать инструмент нужно ведь научиться применять инструмент?
Вот сейчас я и пытаюсь разобраться как применять инструмент. Мне важно почувствовать этот инструмент. У меня есть в голове набор инструментов которыми оперирую множество лет, и все задачи вижу через призму именно этих инструментов. И сейчас, именно на практике решив несколько задач иным способом, хочу научиться видеть задачи иначе, через машинное обучение/нейронные сети.

А зачем это делать если вы и так решаете вашу задачу просто линейной логикой
(набором if-else)?

Сейчас моя задача - освоить инструмент. Подобрать то, на чём можно почувствовать силу этого инструмента.

Написано более года назад
mayton2019 @mayton2019

pvs11,

Мне хотелось бы научиться решать подобные задачи.

Я надеюсь ты понимаешь что сложно придумать ТЗ близкое к бытовому да еще и так чтоб все
в хабре с этим были согласны. Кому например обработка фоток - бытовая задача. А кому и реверс
инжинеринг екзешника - тоже бытовая.

Вот когда я изучал Spache Spark ML, то взял себе задачу кластеризации. Исходные данные - картинка
16 млн цветов и я решил найти ее палитру цветов с ограничениями в 256 центров кластеров. Задачу
решил и это был мой achievement. Потом пошел дальше также придумавая.

Если лень придумывать - зайти на kaggle. Там много датасетов для обучения и там-же дается
совет каким методом обучать и какая цель

https://www.kaggle.com/datasets/kandij/diabetes-dataset

Написано более года назад
U235U235 @U235U235

pvs11, попробуйте написать классификатор для набора данных по ирисам. Это что-то типа Hello world в ML.

Написано более года назад

4 комментария

pvs11 @pvs11 Автор вопроса

Ваша задача явно не тянет на учебную. Вы уверены, что это подходящая задача для начала?

У меня сразу возникает ряд достаточно неприятных вопросов:
1. Что будет критерием качества фото?
- Резкость/мутность?
- Яркость цветов?
- Количество объектов?
- Художественная красота?

У меня даже просто, как у человека будут сомнения в решении этой задачи. Ведь у каждого свой вкус, что для одного красиво, для другого нет.

2. Где взять массив фотографий однотипных с их оценкой?
Если бы мы говорили о стартапе/проекте - одно, можно купить их под проект/заказать. А учебная задача - дело другое.

Написано более года назад
Александр @NeiroNx

Оценка других людей будет.

Написано более года назад
Александр @NeiroNx

Мы люди не совсем понимаем почему нам нравится одно и не нравится другое, а нейросеть способна это понять. Нейросеть в процессе обучения пытается установить закономерность, тоесть связь всех критериев с оценкой других.

Как неросеть научили определять кошек - по фото. Потом дали детский рисунок и она распознала черты кота.

Только в вашем случае она разспознает признаки качественного фото.
Покрутившись перед камерой можно поймать кадр с качественным фото.

Массив фото - в соцсетях, в популярных каналах - это надо поискать.

Написано более года назад
pvs11 @pvs11 Автор вопроса

Александр, ваша задача интересна. Но у меня пока не хватает понимания, какой инструмент применить, и как им пользоваться, чтобы решить данную задачу. Возможно чрез 3-5 итераций по решению более простых задач, и можно пробовать переходить к такой, но прямо сейчас, совершенно не понимаю, как решать задачу, которую вы описали.

Возможно у вас есть какая-то документация, с примером решения подобной задачи?

Написано более года назад

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы

PHP

Простой
После переезда на новый хостинг перестал работать сайт?
- 1 подписчик
- 13 авг.
- 296 просмотров
4

ответа
PHP

Простой
Чем собирать статистику запросов от клиентов на сервере?
- 1 подписчик
- 13 авг.
- 226 просмотров
6

ответов
PHP

Простой
Автовайрить контейнером самого себя — это «законно»?
- 1 подписчик
- 11 авг.
- 433 просмотра
1

ответ
Анимация

+1 ещё

Простой
Существет ли AI делающая промежуточную анимацию между 2 кадрами?
- 1 подписчик
- 09 авг.
- 81 просмотр
1

ответ
Нейронные сети

Простой
Существуют ли нейросети делающие видео с персонажем по эскизу фото?
- 1 подписчик
- 08 авг.
- 80 просмотров
1

ответ
PHP

+1 ещё

Средний
Как работать с подключениями к БД в долгоживущих приложениях с EntityManager в RoadRunner?
- 2 подписчика
- 07 авг.
- 149 просмотров
1

ответ
Видео

+1 ещё

Простой
Есть ли видео-нейросеть, дорисовывающая объекты к реальному видео?
- 1 подписчик
- 03 авг.
- 151 просмотр
1

ответ
IT-образование

+2 ещё

Средний
LLM для школьных экспериментов. Существует ли что то подходящее?
- 1 подписчик
- 03 авг.
- 267 просмотров
3

ответа
PHP

Сложный
Как напечатать чек с маркировкой через атол?
- 4 подписчика
- 01 авг.
- 219 просмотров
0

ответов
PHP

+1 ещё

Простой
Как в выборке sql обратиться к предыдущей записи?
- 2 подписчика
- 30 июл.
- 284 просмотра
6

ответов
Показать ещё Загружается…

PHP-developer / PHP-разработчик

Wanted

До 250 000 ₽

PHP-разработчик

Wanted

До 300 000 ₽

Backend developer (PHP)

Wanted • Казань

До 160 000 ₽

Answer 1 · 2024-01-09 18:55:01

Машинное обучение (ML) это над-множество задач типа классификация, регрессия, кластеризация
и детектирование аномалий. В последнее время очень часто идет подмена понятий и вместо ML
задач все время подсовывают нейронные сети, хотя они закрывают некое под-множество этих
же задач.

Вы совершенно правильно ставите вопрос говоря

Но зачем мне инструмент машинное обучение если я и сам могу сравнить все исходные массивы, и найти тот, что совпадает?

В этом есть инженерная мысль - решать задачи подходящим инструментом. И если ВАША задача решается
методами базовой линейной алгебры (скалярное произведение векторов)
или мат-статистики то и решайте ее так как удобно.

Сама по себе идея например применять нейронные сети не плоха, но с точки зрения экономического расчета
может быть полностью провальной ведь для хорошей НС - вам надо купить хостинг у гугла с процессорами
тензоров например. А зачем это делать если вы и так решаете вашу задачу просто линейной логикой
(набором if-else)?

Answer 2 · 2024-01-09 18:59:55

Оценка фотографии - чтобы не делать плохое фото. Обучаете нейросеть на фото с их оценкой, делаете приложение которое в реальном времени показывает оценку фото при предпросмотре камеры - и делает автоматом лучшие фотки.

Answer 3 · 2024-01-11 12:38:32

Обнаружение разной степени "наготы" на фото.
Люди целые платные сервисы на этом строят и продают за копеечку api, авто-модерация контента.

Какие простые, «бытовые» задачи подходят для изучения машинного обучения?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт