• Как распознать текст на изображении?

    Распознавание объектов на изображении есть непростая тема. Нужно не столько уметь программировать, сколько иметь знания в разных областях математики.
    На Хабре есть хорошая серия лекций от Яндекса и одна из них посвящена вашей теме:
    Анализ изображений и видео. Обнаружение текста на ...
    Хотя порой проще определять наличие объекта, чем морфологию объектов на нём.
    Если автор уточнит детали, то можно дать более подробное объяснение.

    Добавлено
    надо просто отбирать картики с текстом и печатями. распознавать текст не надо. не важно даже какой язык. главное отсеить мусор и оставить документы

    Поскольку распознавать текст (OCR) не требуется, то это наверно ближе к теме Поиск изображений по содержанию (CBIR)
    Кластеризация изображений без учёта объектов на них должна быть проще задачи распознавания текста.

    Почитайте этот документ в почитайте материал в целом с сайта courses.graphicon.ru .

    В целом, ваша задача сводится к следующему:
    1. собрать минимальную выборку всяких изображений (для начала штук 50)
    2. вручную классифицировать что нужно отсеять а что оставить
    3. алгоритм должен уметь извлекать из изображений вектор (набор) некоторых метрик
    4. занести полезную составляющую (необходимую для классификации) в "словарь".
    5. каждое изображение сопоставлять со "словарём" и принимать решение об отсеивании
    6. прогнать алгоритм на малой базе изображений, проверив слабые места
    7. улучшить алгоритм и проверить снова на большей выборке
    Ответ написан
    9 комментариев