Как реализовать классификатор на датасете рукописных цифр?

Реализовать свой первый классификатор на датасете рукописных цифр. Помогите пожалуйста с идеей алгоритма.
Задача состоит в том, чтобы разработать свой уникальный алгоритм классификации, точность которого будет больше 20% (вообще чем больше - тем лучше).
Нельзя использовать встроенные библиотеки ( т.е. должно быть написано вручную), методы машинного обучения (мы не знаем ничего о нейронных сетях), нельзя использовать метод ближайших k-соседей.
  • Вопрос задан
  • 184 просмотра
Пригласить эксперта
Ответы на вопрос 2
Maksim_64
@Maksim_64
Data Analyst
По этой ссылке репозитарий с реализацией вашей задачи на чистом numpy (python библиотека), которая предоставляет векторизованный массив. (все функции написаны вручную) не каких ML алгоритмов из коробки не используется.

Реализуйте на том языке на котором вам необходимо. Я думаю иметь готовый код без ML библиотек это хорошее начало для решения вашей проблемы.

Так же автор репозитария написал статью на https://towardsdatascience.com/ вы можете зарегистрироваться там они дают по моему три бесплатные статьи в месяц и изучить его статью, как весь процесс организовать и т.д. Название статьи "MNIST Handwritten digits classification from scratch using Python Numpy".
Ответ написан
Комментировать
mayton2019
@mayton2019
Bigdata Engineer
Эффективность идеи зависит тоже от того в каком виде представлены данные. Если рукописные цифры - это квадратные картинки (как в наборе MNIST) то тогда решается просто. Считай расстояние Хемминга для всех картинок ко всем. Там где расстояние будет минимально - найден кластер картинок. Или класс символов похожих на букву. Далее можешь искать среднее. Завести вещественные значения для кластера. (Тут кстати тебя надо спросить у тебя 1-битные изображения или GrayScale?)

Если цифры еще не размечены на атласе картинок и тебе предстоит еще и найти их место-положение - то это
задача уровня FineReader/Tesseract. Это посложнее будет и идей и методов там сразу еще +10 штук.

Поэтому опиши как выглядят исходные данные. Понял да? Идей целый вагон. Только не заставляй распылятся на пустяки.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы