Как распознать текст на изображении?

Необходимо написать две программы.
Первая программа обрабатывает поступающие на сервер изображения и выделяет из них те картинки, на которых имеются надписи.
Вторая программа обрабатывает поступающие на сервер изображения и выделяет из них те картинки, на которых имеется печать.
Имею достаточно скудные знания в этой тематике, поэтому не знаю с чего начать и в каком направлении необходимо двигаться. Уровень программирования на языках низкого и высоко уровня для ПК высокий.
Подскажите пожалуйста, с чего мне начать и в каком направлении затем двигаться?
  • Вопрос задан
  • 1757 просмотров
Пригласить эксперта
Ответы на вопрос 1
Распознавание объектов на изображении есть непростая тема. Нужно не столько уметь программировать, сколько иметь знания в разных областях математики.
На Хабре есть хорошая серия лекций от Яндекса и одна из них посвящена вашей теме:
Анализ изображений и видео. Обнаружение текста на ...
Хотя порой проще определять наличие объекта, чем морфологию объектов на нём.
Если автор уточнит детали, то можно дать более подробное объяснение.

Добавлено
надо просто отбирать картики с текстом и печатями. распознавать текст не надо. не важно даже какой язык. главное отсеить мусор и оставить документы

Поскольку распознавать текст (OCR) не требуется, то это наверно ближе к теме Поиск изображений по содержанию (CBIR)
Кластеризация изображений без учёта объектов на них должна быть проще задачи распознавания текста.

Почитайте этот документ в почитайте материал в целом с сайта courses.graphicon.ru .

В целом, ваша задача сводится к следующему:
  1. собрать минимальную выборку всяких изображений (для начала штук 50)
  2. вручную классифицировать что нужно отсеять а что оставить
  3. алгоритм должен уметь извлекать из изображений вектор (набор) некоторых метрик
  4. занести полезную составляющую (необходимую для классификации) в "словарь".
  5. каждое изображение сопоставлять со "словарём" и принимать решение об отсеивании
  6. прогнать алгоритм на малой базе изображений, проверив слабые места
  7. улучшить алгоритм и проверить снова на большей выборке
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Похожие вопросы
CTRL+ Москва
от 250 000 до 320 000 ₽
CTRL+ Москва
от 200 000 до 300 000 ₽
CTRL+ Белград
от 250 000 до 320 000 ₽